В сети представлено множество потрясающих изображений, сгенерированных нейросетями. Фантастические пейзажи, детальные портреты, сюрреалистичные сцены – кажется, для искусственного интеллекта нет ничего невозможного. Однако, как только дело доходит до взаимодействия двух и более персонажей, многие пользователи сталкиваются с трудностями. Создать убедительное парное фото, где люди обнимаются, держатся за руки или просто гармонично смотрятся вместе, – задача не из лёгких. ИИ часто путает персонажей, создаёт анатомических монстров или попросту игнорирует половину запроса. Удивительно, но ключ к успеху лежит не в сложности нейросети, а в скрупулёзной подготовке текстового запроса. А начать стоит с понимания его базовой архитектуры.
Как нейросеть понимает «пару»?
В представлении многих обывателей нейросеть – это некий разум, способный мыслить и фантазировать. На самом деле всё гораздо прозаичнее. ИИ оперирует не смыслами, а статистическими закономерностями, извлечёнными из гигантского массива данных (миллиардов картинок и их описаний). Когда вы пишете «влюблённая пара», она не чувствует романтику, а ищет в своей «памяти» изображения, которые чаще всего сопровождались таким текстом. Проблема в том, что эти описания часто бывают неточными. Отсюда и всплывают все подводные камни: вместо мужчины и женщины появляются двое мужчин, объятия превращаются в борьбу, а нежный взгляд – в пугающую гримасу. Что же делать? Нужно максимально детализировать запрос, разложив его по полочкам для «машины». Именно подробный, структурированный промт становится тем самым спасательным кругом, который вытащит вас из пучины неудачных генераций. Главное – соблюдать определённую последовательность.
Структура промта: Разбираем по косточкам
Задача не из лёгких, но вполне решаемая. Успешный промт для парного изображения – это не просто набор слов, а продуманная конструкция из нескольких логических блоков. Во-первых, всегда стоит начинать с описания действующих лиц. Причём описывать их нужно поочерёдно. Сначала задаём параметры первого персонажа: «мужчина с короткими тёмными волосами и голубыми глазами, одетый в чёрную кожаную куртку». Затем, через запятую или союз «и», добавляем описание второго: «и женщина с длинными рыжими волосами, собранными в хвост, в уютном бежевом свитере». Чем больше деталей вы укажете (рост, телосложение, одежда, эмоции на лице), тем меньше у нейросети останется пространства для нежелательной импровизации.
Далее следует самый ответственный этап – описание взаимодействия. Это же корень проблемы, не так ли? Здесь нужно быть предельно точным. Вместо размытого «вместе» используйте конкретные глаголы и положения в пространстве. Например: «мужчина нежно обнимает женщину сзади за талию», «пара сидит бок о бок на скамейке и держится за руки», «они смотрят друг другу в глаза с лёгкой улыбкой». Такие махинации с текстом заставляют ИИ выстраивать композицию кадра более осознанно. После того как герои и их действия определены, самое время подумать про антураж. Одно дело – пара в пустом пространстве, и совсем другое – на фоне залитой неоном улицы ночного Токио или в тишине осеннего парка. Фон творит чудеса, добавляя изображению глубину и историю. Ну и, конечно же, не стоит забывать о финальном, техническом блоке. Здесь прописывается стилистика (фотореализм, аниме, картина маслом), освещение (кинематографичный свет, мягкий утренний свет, свет от камина), детализация и параметры камеры.
Готовые промты для вдохновения: От романтики до фэнтези
Чтобы теория не оставалась сухой, давайте рассмотрим несколько готовых примеров. Это не догма, а скорее кладезь идей для ваших собственных экспериментов.
Представим себе сцену в уютной кофейне. За окном моросит дождь, а внутри царит тёплая, ламповая атмосфера. Промт для такого изображения может выглядеть следующим образом:
close-up photo of a handsome man with short brown hair and a light beard, and a beautiful woman with long wavy blonde hair, they are sitting at a wooden table in a cozy parisian cafe, looking at each other and smiling, gentle interaction, warm intimate atmosphere, steam coming from coffee cups, raindrops on the window, cinematic lighting, photorealistic, hyperdetailed, 8k
Здесь мы последовательно описали мужчину и женщину, их действие (сидят и смотрят друг на друга), антураж кофейни с конкретными деталями (пар от чашек, капли на окне) и технические параметры для достижения фотореализма.
А если хочется чего-то более динамичного и футуристичного? Пожалуйста. Картина: крыша небоскрёба в киберпанк-городе. Промт:
full-body shot of a muscular man in tactical gear with cybernetic implants and a slender woman with pink hair in a futuristic leather jacket, couple standing back to back, looking in opposite directions, holding plasma pistols, on a skyscraper rooftop overlooking a sprawling cyberpunk city at night, neon signs and flying vehicles in the background, blade runner aesthetic, dramatic cinematic lighting, moody, ultra realistic, trending on artstation
Как видите, структура сохраняется, но меняется лексика, описывающая персонажей и окружение.
Ну и, наконец, окунёмся в мир фэнтези. Сказочный лес, полный тайн. Запрос мог бы быть таким:
fantasy art of a tall male elf with long silver hair and pointed ears, in elegant green robes, and a human female ranger with braided brown hair and leather armor, they are walking hand-in-hand through an enchanted forest at dawn, sunbeams filtering through the ancient trees, magical glowing mushrooms on the ground, atmosphere of wonder and adventure, style of Donato Giancola, oil painting, high detail, epic composition
Здесь мы не только описали сцену, но и добавили отсылку к стилю конкретного художника, что помогает нейросети лучше понять желаемый визуальный язык.
Что делать, если результат не устраивает?
Сложно ли получить идеальный результат с первого раза? Да, довольно часто это лотерея. Но не стоит отчаиваться. Существуют способы «договориться» с капризным ИИ. Одна из самых частых проблем – анатомические ошибки: лишние пальцы, искривлённые конечности, асимметричные лица. Зрелище, прямо скажем, удручающее. Для борьбы с этим в большинстве нейросетей существует инструмент негативных промтов. Это своего рода стоп-лист, куда вы вписываете всё, чего не хотите видеть на изображении. Стандартный набор обычно включает:
ugly, deformed, disfigured, poor anatomy, bad hands, extra limbs, extra fingers, blurry, grainy
Другая беда – нейросеть «сливает» двух персонажей в одного или игнорирует описание второго. Это связано с тем, что она пытается найти компромисс между всеми словами в запросе. Чтобы этого избежать, стоит чётче разделять описания. Используйте союз «and» как жёсткий разделитель. Иногда помогает усиление веса для каждого персонажа, если синтаксис это позволяет (например, через скобки и двоеточие). Кроме того, не скупитесь на слова. Вместо «пара» попробуйте написать «мужчина и женщина», чтобы дать ИИ более конкретную наводку. И не бойтесь повторять. Если вам нужен фотореализм, напишите photorealistic, realism, realistic photo – львиная доля успеха кроется именно в настойчивости.
Главное – не бояться экспериментировать и относиться к процессу творчески. Меняйте слова местами, добавляйте неожиданные детали, смешивайте, казалось бы, несовместимые стили. Ведь каждая новая генерация, даже неудачная, – это ценный опыт и ещё один шаг к созданию вашего идеального парного арта, который будет радовать глаз. Удачи в ваших творческих поисках.