Множество сгенерированных изображений представлено в сети, где люди выглядят словно пластиковые манекены с неестественно застывшими улыбками. Случайный набор идеальных, но совершенно чужих друг другу персонажей довольно часто напоминает семья на таких кадрах. Плохой сон — это не всегда результат кошмара, а плохой рендер — не обязательно вина нейросети. Дело в том, что обыватель чаще всего просит машину выдать просто красивую картинку, напрочь забывая о важнейших нюансах композиции, освещения и эмоциональной связи между объектами. В представлении многих достаточно написать десяток слов, однако без глубокого понимания механики шедевр не родится на свет. Но чтобы не ошибиться и получить живой кадр, нужно скрупулёзно проработать текстовый запрос.
Зачем переплачивать за нейросети? Экономьте сотни долларов каждый месяц 💸
Оплачивать Midjourney, премиум-версии ChatGPT, видео- и аудио-генераторы по отдельности — это безумно дорого и неудобно. Этот сервис решает проблему! Получите полный пакет премиум-моделей (более 90 топовых нейросетей) по цене одной доступной подписки. Безлимитные возможности, никаких скрытых платежей и сгорающих токенов при активном тарифе.
Перестаньте платить за 10 разных сайтов. Выбирайте выгоду и творите без ограничений 👉 https://clck.ru/3RNCRL
Как добиться реалистичной динамики?
Сложно ли заставить ИИ нарисовать искреннюю эмоцию? Задача не из лёгких. Многие считают генерацию групп людей простейшей задачей, но на самом деле именно здесь все слабости алгоритма всплывут наружу. Ведь как только в кадре появляется больше одного человека, шанс получить лишние конечности возрастает кратно. Выручит грамотный подход к описанию физических взаимодействий. Начать стоит с полного отказа от прямых взглядов в объектив (смотреть в камеру — верный путь к эффекту зловещей долины). Куда лучше работает указание на совместное действие. Первым делом прописывается занятие, увлёкшее домочадцев в конкретный момент времени. Далее следует добавить направление их взглядов друг на друга, скрепляя композицию невидимыми эмоциональными нитями. Отдельно стоит упомянуть важность асимметрии в позах. Венчает конструкцию уточнение фокусного расстояния. И всё-таки полностью избежать артефактов без последующего инпейнта вряд ли удастся. Это тяжёлый, но эффективный способ спасти добротный исходник.
Студийный портрет в высоком ключе
Наряд для избранных. Белоснежный бесшовный фон. Именно с таких деталей строгую, коммерческую сцену опытные авторы начинают выстраивать. Слишком пёстрый задник часто перетягивает внимание, а нам нужна изысканная кинематографичная драма с акцентом на лицах. Впрочем, чтобы герои не слились с белизной стен, в промт обязательно вносят параметры контрового света. Для этого отлично подходят формулировки вроде «soft backlight» или «diffused rim light». Ну, а солирует в таком запросе обычно указание конкретной камеры и дорогого объектива. Например, фраза «shot on Hasselblad H6D-100c, 85mm f/1.4» творит чудеса, добавляя изображению внушительный объём и реалистичную текстуру кожи. Естественно, не стоит забывать о возрасте моделей. Указание точных лет (например, «a 35-year-old father, a 32-year-old mother») помогает алгоритму избежать наляпистости и сохранить адекватные пропорции тел. К тому же точные цифры значительно снижают градус случайности.
Настройка освещения
Обязательно ли указывать тип света? Безусловно. Буквально десятилетие назад фотографам приходилось выстраивать громоздкие софтбоксы, тратя на это долгие часы, но сейчас достаточно пары правильных английских слов. К слову, именно свет определяет львиную долю успеха. Отличным решением станет использование фразы «golden hour lighting», заливающей сцену мягким тёплым светом. Следом в запрос органично вплетаются «volumetric rays», пробивающиеся сквозь листву или пыльное оконное стекло. Третьим элементом выступает «soft shadows», смягчающий резкие контрасты на лицах младенцев и взрослых. А если ещё вспомнить про «cinematic lighting», то картинка моментально приобретёт глубину хорошего голливудского фильма. Разумеется, не стоит перебарщивать с техническими эпитетами. Машина может элементарно запутаться. Да и сама сцена рискует превратиться в нечитаемое месиво из бликов и теней.
Что насчёт одежды и антуража?
Выбор гардероба колоссален. И здесь таятся свои коварные подводные камни. Если оставить одежду на откуп нейросети, она с радостью нарядит семью в вычурные, абсолютно несочетающиеся костюмы. Поэтому цветовую палитру и стиль вещей лучше задавать максимально жёстко. Гармонично смотрится уютный вязаный трикотаж натуральных оттенков, прописанный как «matching beige and olive knitted sweaters». В строгом уточнении нуждается и обувь (особенно если в кадр попадают ноги целиком). Неуместные футуристичные кроссовки на фоне классического дровяного камина могут легко разрушить весь тщательно выстроенный антураж. Тем более, что алгоритмы сильно тяготеют к современным трендам, если их искусственно не ограничить. Да и самим виртуальным персонажам визуально комфортнее находиться в простых, базовых вещах без кричащих принтов. Кошелёк станет легче, если покупать реальные дизайнерские луки, а нейросеть «сошьёт» их за три миллисекунды.
Локации для съёмки: Природные пейзажи
Шелест сухих осенних листьев под ногами и лёгкий ветер, треплющий волосы. Начинать описание сцены на открытом воздухе стоит именно с атмосферных погодных явлений. Ведь пустой лес или безликое поле делают снимок откровенно плоским и скучным. К первой группе удачных маркеров относится погода, заданная через «crisp autumn morning» или «light mist rolling over the hills». Затем в конструкцию аккуратно вводится растительность, например, «towering pine trees» или «tall wild grass». Ну и, наконец, прописывается само взаимодействие семьи с дикой природой. Гуляющие за руки родители, бегущее впереди чадо, подброшенная вверх собака — всё это вносит свою лепту в создание колоритного сюжета. Кстати, сильно размытый задний план («bokeh», «shallow depth of field») позволит филигранно скрыть мелкие огрехи генерации веток и листьев на периферии кадра.
Домашняя обстановка в стиле лайфстайл
Зрелище удручающее, когда домашний интерьер на сгенерированном фото выглядит как стерильный номер бюджетного отеля. Жилой дом должен иметь лёгкий беспорядок, свою самобытную историю. Для создания такого эффекта в промт вводят разбросанные игрушки («scattered wooden toys on the rug»), полупустые чашки с остывшим кофе на столе и небрежно брошенные пледы («messy knitted blanket on the sofa»). Вся суть в том, что именно эти мелкие несовершенства делают кадр по-настоящему живым. А вот оригинальное название фотографического стиля — «documentary family photography» — заставит ИИ навсегда отказаться от глянцевой пластиковой ретуши. Алгоритм отдаст предпочтение благородной зернистости плёнки («film grain», «Kodak Portra 400»). Однако не перегружайте сцену десятками мелких предметов быта. Ложка дёгтя в виде лишней детали всё испортит, так как машина неизбежно начнёт сливать их в бесформенную абстрактную массу.
Техническая база
С чего начинается сборка конструкции? С определения базового движка и модели. Разложить по полочкам параметры обывателю сложно, однако опытные промпт-инженеры действуют совершенно иначе. Сначала задаётся общий медиум и стиль, оформленный как «A candid lifestyle photography of…». За ним тянется длинный блок с описанием субъектов, усиленный возрастными и этническими рамками, одетый в конкретные текстурные вещи. Третьим шагом выстраивается физическое окружение, детализированное через материалы и локальные источники света. Финализирует всё это великолепие суровая техническая часть: параметры оптики, тип освещения и разрешение рендера. К тому же отрицательный запрос (negative prompt) играет здесь роль спасательного круга. Туда смело отправляются слова «mutation», «extra limbs», «plastic skin», «looking at camera», «posed». Это же правило касается и чрезмерной резкости. Текст, грамотно усиленный скобками и весами, автомат обрабатывает гораздо точнее. Такой подход — настоящий кладезь для тех, кто ищет стабильность.
Стоит ли использовать референсы?
Обе стороны медали нужно учитывать всегда. Чистый текст, даже самый добротный, иногда даёт серьёзные сбои в геометрии лиц, особенно когда мы стремимся к портретному сходству с реальными людьми. Функция Image-to-Image или использование специализированных адаптеров (вроде ControlNet) бьёт по бюджету времени, требуя дополнительных настроек, но спасает от горького разочарования. Загрузив в систему удачный черновик с нужной позой, вы можете полностью сконцентрироваться на проработке освещения в текстовом блоке. Кроме того, сохранение постоянного seed-номера позволит вносить точечные правки, не разрушая удачно сложившуюся композицию. Ведь невероятно обидно потерять шикарный кадр только из-за того, что у одного из детей оказалось шесть пальцев на левой руке. Это надёжно. Потому что проверено. Временем.
Поиск идеального баланса между математическими параметрами и художественным видением всегда требует скрупулёзного подхода и огромной насмотренности. Эксперименты с нестандартным фокусным расстоянием, неожиданными локациями и сложным контровым светом обязательно принесут свои плоды, открывая совершенно новые грани генеративного искусства. Удачи в создании тёплых и по-настоящему живых цифровых семейных архивов!