В сети представлено множество красивых одиночных портретов, сгенерированных нейросетями, однако попытка поместить в один кадр сразу двух персонажей часто оборачивается настоящей катастрофой. ИИ прекрасно справляется с изолированными объектами, лепя своё цифровое чадо из шума с поразительной точностью. А вот заставить алгоритм чётко разделить внешность, одежду и эмоции пары — задача совершенно иного уровня. Буквально десятилетие назад это было роскошью даже для опытных цифровых художников, но сейчас львиная доля энтузиастов пытается приручить диффузионные модели, а многие грезят о создании идеальных комиксов. Но чтобы не ошибиться в запросах, нужно чётко понимать механику смешивания токенов.
Ваш личный ИИ-отдел маркетинга, который работает 24/7 📈
Ускорьте создание контента в 10 раз! Этот мульти-ИИ сервис позволяет писать безупречные продающие посты, генерировать уникальные фото для соцсетей, создавать рекламные промо-ролики с нуля и писать для них музыку в пару кликов. Идеальное решение для предпринимателей, маркетологов и SMM-специалистов. Всё в едином удобном интерфейсе — больше не нужно переключаться между десятком вкладок.
Делегируйте рутину искусственному интеллекту и увеличивайте продажи. Начните работу здесь 👉 https://clck.ru/3RNCRL
Стоит ли использовать базовый синтаксис?
Запрос в лоб обычно не работает. Напишете вы красивую фразу про парня в кожаной куртке и девушку в красном платье, а на выходе с большой долей вероятности получите парня в красной коже и спутницу в странном гибридном наряде. Информационный хаос льётся рекой. Это связано с тем, что токены неизбежно просачиваются друг в друга в латентном пространстве. Ведь алгоритм не видит строгих границ между объектами без явных математических указаний. К слову, именно этот нюанс заставляет многих бросать попытки создать колоритный парный портрет, возвращаясь к простым одиночным генерациям. Выручит здесь строгий контроль весов, дополненный региональным промптингом, закреплённый за конкретными масками. На самом деле, лучше отказаться от длинных поэтичных описаний в пользу сухой архитектуры.
Архитектура составного запроса
С чего начинается выбор структуры? С определения доминирующего персонажа. Безусловно, один из героев всегда тяготеет к центру композиции — таковы незыблемые постулаты классической фотографии. В первой части текстового кода прописывается общая сцена, подкреплённая глобальными модификаторами освещения, задающая настроение всему кадру. Далее следует детальное описание первого человека через конструкцию пространственного позиционирования, усиленную весовыми коэффициентами (примерно на уровне одной целой трёх десятых). Отдельно стоит упомянуть второго героя, размещённого на холсте с аналогичной, но зеркальной детализацией. Естественно, такой добротный структурный подход требует скрупулёзной работы с отрицательными подсказками. Сложно ли стилизовать такую сцену? Да, но результат того стоит.
Как выбрать позу для пары?
Задача не из лёгких. В представлении многих обывателей два человека должны обязательно смотреть друг на друга, сливаясь в неразрывном объятии. Однако спектр взаимодействий гораздо шире, да и нейросетям проще работать с дистанцией. Скучное фронтальное расположение героев сильно бьёт по бюджету внимания зрителя, делая картинку плоской и невыразительной. А если ещё вспомнить про пресловутые лишние конечности, которые регулярно всплывут при тесных контактах, то ситуация становится совсем удручающей, добавляя свою ложку дёгтя. Не стоит перебарщивать с объятиями на начальных этапах работы. Гораздо логичнее использовать позы спина к спине, разделённые визуальным барьером, объединённые общим действием. Это же правило касается и сложных перспективных ракурсов.
Разделение атрибутов
Махинации с одеждой. Вот где скрываются главные подводные камни генерации нескольких субъектов. Если первый герой должен облачиться во внушительный стальной доспех, а второй надеть изысканный шёлковый халат, нейросеть обязательно попытается выдать стальной шёлк на обоих. Спасательный круг — это использование жёстких разделителей контекста, обрывающих влияние предыдущих слов. Сначала формируется первый надёжный современный образ, затем ставится стоп-слово, после чего генерируется второй наряд. Тем более, что актуальные веб-интерфейсы позволяют делать это довольно просто. Впрочем, иногда даже такая щепетильная настройка не спасает от наляпистости в мелких деталях. При перегрузке токенов смысл отсекает сам компилятор.
Освещение и антураж
Чудеса в таких ситуациях творит грамотно выставленный свет. Исконно кинематографический приём контрового освещения способен вытянуть даже самый неудачный кадр с двумя фигурами. Дело в том, что глубокие контрастные тени скрывают мелкие артефакты анатомии на стыке двух тел, где обычно алгоритм начинает путаться в фалангах пальцев. Ну и, конечно же, нельзя не упомянуть грамотно выстроенное окружение. Перетягивать на себя внимание фон не должен, иначе кошелёк станет легче на десятки часов потраченного машинного времени без внятного визуального результата. Бюджетный подход с обилием деталей здесь не сработает. Лучше использовать мягкое размытие заднего плана, усиленное эффектом боке, дополненное атмосферной дымкой. Зрелище получается впечатляющее. Ведь именно визуальный мусор часто разрушает обе стороны медали, превращая грандиозный замысел в нечитаемую кашу.
Текстовые ролевые модели
Взаимодействие в чатах. Здесь ситуация кардинально иная, но не менее увлекательная. Когда-то тихое место текстовых квестов сейчас превратилось в настоящий бомонд сложных многопользовательских симуляций. Многие считают, что достаточно задать имена двух собеседников в одном абзаце, но на самом деле языковая модель быстро запутается в репликах. Нужно отметить, что правильный промпт для двух ботов строится через чёткое разделение системных ролей и изолированные контексты. Сначала задаётся формат диалога через системные теги, ограничивается объём реплик (буквально парой абзацев), прописывается самобытный характер каждого участника. Разумеется, придётся постоянно вносить лепту в модерацию, напоминая системе, кто именно сейчас солирует на сцене. И всё же, наблюдать за живым спором двух виртуальных личностей — заслуживает истинного уважения.
Вредно ли смешивать стили?
Эксперименты поощряются. Попытка сгенерировать одного человека в эстетике мрачного киберпанка, а второго в духе высокого Ренессанса звучит как абсурдный каприз. Большинство скажет, что это невозможно. Но именно на таких диких контрастах строится новый визуальный язык, где каждая изюминка приковывает внимание. Правда, процесс этот не сильно ударит по кошельку, но потребует колоссальной усидчивости. Желающим окунуться в этот процесс придётся использовать продвинутые инструменты перерисовки, отрисовывая сначала один колоритный образ, маскируя его, заменяя текстовый запрос на диаметрально противоположный. Само собой, на стыке эпох неизбежно появятся неоднозначные визуальные глитчи. Тем более, нужно внимательно следить за перспективой. Не перегружайте сцену лишними объектами, чтобы алгоритм окончательно не сломался от когнитивного диссонанса.
Цветовое кодирование
Палитра решает многое. Вычурный багровый оттенок, отданный одному герою, должен грамотно компенсироваться спокойным глубоким синим у второго. К тому же, жёсткое цветовое разделение помогает диффузионной модели физически отделить пиксели одного объекта от другого на ранних этапах формирования картинки. Это надёжно. Потому что проверено. Сотнями генераций. В цифровом пространстве оседает колоссальная масса примеров, где герои сливаются в единое пятно из-за схожей по тональности одежды. А вот грамотный контрастный гардероб бросается в глаза сразу, создавая нужный объём. Кстати, придётся потратить время на подбор оттенков, однако финальный результат поразит даже закоренелых скептиков. Ну, а если добавить направленные источники света разной температуры (около четырёх тысяч Кельвинов с одной стороны и шести тысяч с другой), композиция окончательно стоит на ногах.
Динамика в кадре
Статика убивает интерес. Заставить двух людей бежать, сражаться или кружиться в танце — вот настоящая проверка мастерства любого промпт-инженера. Натыкаешься порой на работы, где стремительное движение заморожено безупречно, и понимаешь всю сложность проделанного пути. Вся суть в том, что для экшена нужны глаголы с экстремально сильным весом, вынесенные в самое начало строки. Использование чётких анатомических терминов, подкреплённых контролем позы через скелетную модель, позволяет разложить по полочкам даже самую запутанную драку. С одной стороны, это серьёзное вложение времени в настройку дополнительных модулей, с другой — стопроцентное попадание в задуманную позу. Не скупитесь на детальное описание точек соприкосновения, если уж решились на тесный физический контакт. Главное — вовремя отлавливать искажённые суставы на этапе предпросмотра.
Постпроцессинг
Финальные штрихи всегда остаются за человеком. Без качественного алгоритмического увеличения любая парная генерация выглядит откровенно сырой. Устав от суеты с подбором правильных слов, многие неопытные авторы забывают про банальную ретушь. Детализация лиц на общих планах всегда страдает из-за нехватки разрешения, поэтому их реставрация через специальные нейросетевые плагины просто необходима. Кроме того, локальная ручная цветокоррекция спасёт те участки, где ткань всё-таки обменялась пигментами. Буквально за пару минут в графическом редакторе можно исправить то, с чем машинный мозг бился часами. Впрочем, это уже вопрос профессиональной этики. Ну и, наконец, финальный рендер, венчающий всю работу, с добавлением лёгкого плёночного зерна скроет неестественно гладкую кожу. Использование таких приёмов значительно повышает общую ценность изображения.
Работа с многослойными генерациями требует изрядного терпения и вдумчивого отношения к каждой переменной. Приручение строптивых нейросетей, заставляющее их беспрекословно выполнять сложнейшие команды, определённо стоит всех бессонных ночей. Удачи в создании безупречных многофигурных шедевров, пусть каждый новый запрос порадует идеальной композицией и живой атмосферой.