В сети представлено множество красивых, порой даже фантастических изображений пар, созданных искусственным интеллектом. Глядя на них, многие пользователи грезят о создании чего-то подобного – романтического, трогательного или, наоборот, эпического. Однако часто первые попытки заканчиваются разочарованием: вместо двух гармоничных персонажей нейросеть выдаёт странных гибридов, асимметричные лица или просто отказывается понимать, чего от неё хотят. Всё дело в том, что для создания по-настоящему качественного парного изображения требуется не просто идея, а грамотно составленный запрос, или промт. Но чтобы не ошибиться и получить желаемый результат с первых попыток, нужно разложить по полочкам саму структуру запроса и понять его логику.
Как нейросеть понимает парные запросы?
Задача не из лёгких. Когда мы просим ИИ нарисовать один объект, например, «кота в шляпе», его внимание целиком и полностью сосредоточено на этом персонаже. Но как только в запросе появляются два действующих лица, нейросеть сталкивается с проблемой распределения признаков. Кому именно надеть красное платье – женщине или мужчине? Кто должен быть выше ростом? Чьи волосы должны быть светлыми? Без чётких указаний ИИ склонен смешивать атрибуты, создавая тот самый «винегрет», который так расстраивает начинающих пользователей. Вся суть в том, что нейросети (такие как Midjourney или Stable Diffusion) не мыслят образами, а работают с текстовыми ассоциациями. Поэтому ваша главная задача – максимально конкретизировать описание каждого персонажа по отдельности, но в рамках единой сцены.
Основа успешного промта для парного фото – это разделение описаний. Нужно чётко обозначить «Персонажа 1» и «Персонажа 2». Самый простой способ сделать это – использовать связку «and» (и) для соединения двух независимых описаний. Например, «a man with black hair AND a woman with blonde hair». Такая конструкция помогает нейросети понять, что чёрные волосы относятся к мужчине, а светлые – к женщине. Не стоит пытаться описать всё в одном потоке сознания. Вместо «красивая пара в лесу» стоит использовать более детальный и структурированный запрос, который мы разберём чуть ниже. Это же правило касается и действий. Если вы хотите, чтобы персонажи взаимодействовали, опишите это действие максимально однозначно: «man hugging a woman from behind», а не просто «a couple hugging».
Структура идеального промта
С чего начинается построение запроса? С определения ключевых блоков, из которых он будет состоять. Это своего рода скелет, на который вы потом будете «навешивать» детали. Во-первых, это описание первого персонажа. Сюда входит внешность, одежда, эмоции. Во-вторых, описание второго персонажа по той же схеме. В-третьих, это описание их взаимодействия и позы. Ну и, наконец, четвёртый блок – это окружение, стиль, освещение и технические параметры изображения. Необязательно использовать все блоки сразу, но их понимание поможет вам контролировать результат.
Начнём с персонажей. Старайтесь давать конкретные детали. «A handsome man with short dark hair, a light beard, wearing a white linen shirt» (Красивый мужчина с короткими тёмными волосами, лёгкой щетиной, в белой льняной рубашке). И сразу же добавляем второго участника сцены: «AND a beautiful woman with long wavy red hair, smiling, wearing a green sundress» (И красивая женщина с длинными волнистыми рыжими волосами, улыбающаяся, в зелёном сарафане). Уже на этом этапе мы разделили персонажей и их атрибуты.
Далее следует поза. Это критически важный элемент, который задаёт настроение снимка. Что они делают? «standing on a beach, holding hands, looking at each other» (стоят на пляже, держатся за руки, смотрят друг на друга). Здесь мы указали и действие, и направление взглядов, что добавляет изображению жизни и эмоциональной связи. Без этого уточнения персонажи могли бы просто стоять рядом, глядя в камеру, что выглядело бы довольно статично.
Ну и, конечно же, антураж. Окружение, стиль и свет – это те самые кисти, которыми вы рисуете атмосферу. Продолжим наш пример: «at sunset, warm romantic lighting, cinematic style, photorealistic, 8k» (на закате, тёплое романтическое освещение, кинематографичный стиль, фотореалистично, 8к). Технические параметры вроде «8k» или «photorealistic» напрямую говорят нейросети, какого уровня детализации и правдоподобности вы от неё ждёте.
Готовые примеры: от романтики до фэнтези
Разберём несколько готовых промтов для разных сценариев. Они помогут наглядно понять, как работает описанная выше структура. Это не догма, а скорее добротный шаблон, который можно и нужно адаптировать под свои идеи. Не бойтесь экспериментировать с деталями, ведь именно в них кроется изюминка.
Романтический вечер в городе:
A man in a classic black suit gently holds a woman’s hand, AND a woman in an elegant sparkling red evening gown is smiling at him, they are standing on a balcony overlooking the night city with many lights, bokeh background, romantic atmosphere, cinematic shot, photo taken by Canon EOS 5D Mark IV.
Этот промт чётко разделяет одежду персонажей, описывает их нежное взаимодействие («нежно держит за руку», «улыбается ему»), задаёт конкретную локацию (балкон с видом на ночной город) и даже имитирует съёмку на определённую камеру, что влияет на стилистику изображения.
Уютная осенняя прогулка:
A young man with a slight stubble wearing a cozy brown sweater and jeans, AND a young woman with long blonde hair in a warm beige coat and a scarf, they are walking together through an autumn park, holding hands, fallen yellow leaves on the ground, soft sunlight filtering through the trees, warm color palette, candid photo.
Здесь акцент сделан на уютной атмосфере. Ключевые слова: «уютный свитер», «тёплое пальто», «осенний парк», «мягкий солнечный свет». Упоминание «candid photo» (непостановочное фото) подсказывает ИИ, что нужна более естественная и живая поза.
Фантастическая сцена:
An elven warrior with long silver hair and glowing blue eyes, in ornate silver armor, stands protectively, AND a human sorceress with dark curly hair in a deep purple robe, casting a small light spell from her palm, they are in an ancient mystical forest at night, magical glowing mushrooms around, fantasy art, detailed, epic lighting.
В этом примере мы уходим от фотореализма в сторону фэнтези. Описание персонажей включает расовые признаки («эльфийский воин», «человек-волшебница») и магические элементы («светящиеся глаза», «заклинание»). Окружение тоже под стать – «мистический лес» и «волшебные грибы».
Исторический антураж (Викторианская эпоха):
A gentleman in a Victorian tailcoat and a top hat, with a serious expression, AND a lady in a lush ball gown with a corset and intricate hairstyle, holding a fan, they are dancing a waltz in a grand ballroom with crystal chandeliers, historical painting style, oil on canvas texture, 19th-century setting.
Для создания исторической сцены стоит использовать маркеры эпохи в одежде («фрак», «цилиндр», «пышное бальное платье») и в окружении («бальный зал с хрустальными люстрами»). Указание на стиль («историческая живопись», «текстура масла на холсте») окончательно уводит нейросеть от фотографии в сторону искусства того времени.
Что делать, если не получается?
Иногда, даже при скрупулёзном составлении промта, результат не оправдывает ожиданий. Руки, лица, количество пальцев – давняя головная боль всех генеративных моделей. Что можно предпринять? Во-первых, стоит попробовать использовать негативные промты. Это специальные команды (например, --no в Midjourney), которые указывают, чего на изображении быть НЕ должно. Например: --no ugly, deformed hands, extra limbs, blurry face. Это поможет отсечь часть брака.
Во-вторых, не стоит пренебрегать функцией регенерации. Если вам в целом нравится композиция, но не устраивают детали, просто попросите ИИ перерисовать тот же запрос. Часто второй или третий вариант оказывается значительно лучше первого. Кроме того, можно менять отдельные слова в промте. Иногда замена «beautiful» на «gorgeous» или «walking» на «strolling» может творить чудеса, так как у нейросети с этими словами связаны немного другие визуальные ассоциации.
Ну и, конечно же, практика. Чем больше вы экспериментируете, тем лучше начинаете чувствовать логику конкретной нейросети. Сохраняйте удачные промты, анализируйте, какие именно слова привели к хорошему результату, и со временем создание парных изображений из сложной махинации превратится в увлекательный творческий процесс. Удачи в ваших цифровых экспериментах.