Многие, кто хоть раз пробовал сгенерировать изображение в нейросети, сталкивались с одной и той же удручающей проблемой: создать портрет одного человека довольно просто, но как только речь заходит о группе, начинается настоящая магия с примесью хоррора. Лишние конечности, перепутанные лица, странные артефакты — кажется, будто искусственный интеллект впадает в ступор при виде нескольких персонажей в одном кадре. В представлении многих обывателей это нерешаемая задача, но на самом деле всё дело в деталях и точности формулировок. Удивительно, но чтобы заставить машину нарисовать качественное групповое фото, нужно разложить по полочкам все свои пожелания.
Как нейросеть видит группу людей?
Задача не из лёгких. Чтобы понять, почему возникают трудности, стоит немного окунуться в механику работы диффузионных моделей. Если говорить просто, нейросеть не «рисует» людей в привычном нам смысле. Она начинает с цифрового шума и постепенно, шаг за шагом, «проявляет» из него изображение, основываясь на триллионах картинок, которые видела во время обучения. И вот тут-то и кроется корень зла. На обучающих данных одиночные портреты встречаются гораздо чаще, чем сложные групповые композиции. Поэтому для нейросети «группа людей» — это довольно абстрактное понятие, мешанина из рук, ног и голов. При перегрузке деталями без чёткой структуры фокус модели рассеивается, и она начинает «галлюцинировать», дорисовывая лишнее или смешивая черты разных персонажей. Поэтому наша главная цель — дать ей максимально конкретный и структурированный запрос.
Базовые элементы промта: от чего отталкиваться?
С чего начинается работа над промтом? С определения ключевых «опорных точек», за которые нейросеть сможет зацепиться. Во-первых, это точное количество персонажей. Не стоит писать расплывчатое «группа друзей» или «толпа на вечеринке». Укажите конкретно: «групповое фото пяти человек», «три подруги», «семья из четырёх человек: двое взрослых и двое детей». Это же правило касается и гендерного состава, например, «две женщины и трое мужчин». Чем точнее вы зададите численные параметры, тем меньше у ИИ будет соблазна для творческих, но нежелательных махинаций.
Далее следует описание внешности. Разумеется, пытаться задать уникальные черты лица для каждого из десяти человек — занятие бесперспективное и даже вредное. Нейросеть, скорее всего, запутается. Однако задать общие характеристики вполне реально и даже нужно. Уточните возрастные группы (пожилая пара, молодые люди, подростки), цвет волос и причёски («блондинка с короткими волосами», «брюнет с бородой»), этническую принадлежность. Если для вас важна какая-то изюминка, стоит сделать на ней акцент. Например, «один из мужчин в очках», «девушка с рыжими волосами и веснушками». Это помогает нейросети индивидуализировать персонажей.
Отдельно стоит упомянуть одежду. Стиль одежды — мощнейший инструмент для создания единой атмосферы и визуальной гармонии. Вместо того чтобы описывать наряд каждого, лучше задать общий дресс-код. Например, «все одеты в строгие деловые костюмы», «персонажи в повседневной одежде в стиле кэжуал 90-х», «одеты в вечерние платья и смокинги». Такие обобщения нейросети даются довольно легко. К тому же это помогает избежать визуальной наляпистости, когда один персонаж одет в пляжные шорты, а другой — в зимнюю куртку.
Ну и, конечно же, не стоит забывать про окружение и позы. Где находятся ваши персонажи? В уютной гостиной у камина, на солнечном пляже, в футуристическом интерьере космического корабля или на фоне старинного замка? Чётко описанный фон задаёт львиную долю настроения. То же самое касается и действий. Они сидят за столом, стоят в обнимку, смеются, смотрят в камеру или танцуют? Конкретная поза или действие — это спасательный круг для нейросети, позволяющий ей правильно скомпоновать фигуры в пространстве.
Стиль и атмосфера: ключ к живому снимку
Техническое задание — это хорошо, но без души получится лишь стерильная и безжизненная картинка. Поэтому следующий важный этап — проработка художественной составляющей. Сперва определитесь с общим стилем. Что это должно быть? Фотореалистичный снимок, картина маслом, акварельный рисунок, кадр из аниме или может быть, 3D-рендер? Такие теги, как «photorealistic», «oil painting», «cinematic shot», творят настоящие чудеса, мгновенно настраивая нейросеть на нужный лад.
А что насчёт технических деталей фотографии? Здесь открывается настоящий кладезь возможностей для скрупулёзного пользователя. Можно указать тип объектива (например, «35mm lens» для более широкого угла или «85mm lens» для портрета), значение диафрагмы («f/1.8» для размытого фона или «f/8» для чёткости по всему кадру). Не менее важен свет. Попробуйте добавить «dramatic lighting» (драматическое освещение), «soft natural light» (мягкий дневной свет) или «golden hour» (золотой час), и вы увидите, как преобразится изображение.
Ну и, наконец, эмоции. Изображение должно рассказывать историю. Какое настроение вы хотите передать? Радость, грусть, задумчивость, торжественность? Не стесняйтесь прописывать это напрямую: «joyful atmosphere» (радостная атмосфера), «a group of friends laughing» (группа смеющихся друзей), «solemn family portrait» (торжественный семейный портрет). Именно эмоциональная окраска заставляет зрителя поверить в реальность происходящего на сгенерированном снимке.
Примеры готовых промтов
Давайте разложим всё по полочкам на конкретных примерах. Предположим, нам нужен тёплый семейный снимок в деревенском стиле. Промт может выглядеть так:
«Семейное фото из четырёх человек — отец, мать, сын-подросток и маленькая дочь — сидят на веранде деревенского дома, все смеются, глядя в камеру. Одеты в уютную повседневную одежду. Закат, тёплый золотой час. Фотореалистичный снимок, объектив 50мм, мягкий естественный свет, тёплые тона».
А вот пример для корпоративного снимка. Задача — показать сплочённую команду профессионалов. Пробуем так:
«Групповое фото команды из шести человек (три мужчины и три женщины) в современном офисе с панорамными окнами. Они стоят вместе, уверенно улыбаясь в камеру. Одеты в деловую повседневную одежду (business casual). Чистый, яркий свет. Кинематографичный кадр, высокая детализация, профессиональная фотография».
Ну а если хочется чего-то более креативного? Например, группа друзей в фэнтезийном сеттинге.
«Пять искателей приключений — воин в доспехах, эльфийская лучница, гном с топором, волшебник в мантии и плутовка в кожаной броне — стоят на скалистом утёсе на фоне заката. Эпическая поза, смотрят вдаль. Цифровая живопись в стиле фэнтези, драматическое освещение, высокая детализация, концепт-арт».
Типичные ошибки: чего стоит избегать?
Главный враг хорошего результата — это неопределённость. Фразы вроде «люди на улице» или «вечеринка» практически гарантированно приведут к хаосу на изображении. Не стоит перегружать промт избыточными и противоречивыми деталями. Попытка описать цвет глаз и форму ногтей каждого из семи персонажей, скорее всего, приведёт к тому, что нейросеть проигнорирует половину запроса или смешает всё в одну кучу.
Ещё одна ловушка — это сложные пространственные взаимодействия. Запросы типа «человек А держит за руку человека Б, который обнимает человека В» обрабатываются нейросетями довольно плохо. Лучше использовать более общие формулировки: «стоят близко друг к другу», «дружеские объятия», «сидят рядом на диване». И, конечно, не забывайте про негативные промты (указание того, чего на картинке быть не должно), если вы используете модели, которые это поддерживают (например, Stable Diffusion). Туда можно смело вписывать «уродливый, деформированный, лишние пальцы, плохое качество».
Процесс создания идеального группового фото с помощью ИИ — это не магия, а кропотливая, но увлекательная работа. Это диалог с машиной, в котором точность и структура вашего языка определяют конечный результат. Экспериментируйте, меняйте детали, пробуйте разные стили, и результат обязательно вас порадует.