Множество искусственных кадров представлено сегодня в сети, где неестественно улыбающиеся люди больше напоминают восковые фигуры, чем живых родственников. Устав от суеты стандартных студийных декораций, многие авторы пытаются перенести свои задумки в цифровую среду, надеясь на магию алгоритмов. Буквально десятилетие назад качественная генерация нескольких людей в одном кадре казалась недостижимой роскошью, но сейчас нейросети шагнули далеко вперёд. С одной стороны, инструменты стали доступнее, с другой — плохой результат редко связан с техническим несовершенством самой платформы. Чаще всего проблема кроется в банальном неумении выстроить композицию словами, передав машине точное видение сцены. Но чтобы не ошибиться в процессе создания реалистичного и тёплого снимка, нужно тщательно продумывать каждую текстовую переменную.
Синтаксис нейросетевой фотографии
Задача не из лёгких. С генерацией одиночных портретов дело обстоит довольно просто, а вот собрать в одном кадре разновозрастную группу — настоящий вызов для любого криэйтора. Почему так происходит? Вся суть в том, что при увеличении количества объектов рассеивается внимание генеративной модели, и лица начинают неумолимо сливаться в единый пластиковый шаблон. Стоит отметить, что львиная доля брака возникает именно из-за прямого конфликта токенов возраста, одежды и пола. Чтобы избежать откровенной наляпистости, опытные инженеры разбивают сцену на строгие логические блоки, действуя последовательно. Сначала в текстовое поле вписывается общая атмосфера снимка, заложенная в базовое освещение и погодные условия. Затем указывается тип камеры, фокусное расстояние объектива и тип плёнки, после чего в сцену помещаются сами объекты, разделённые запятыми и строгими весами. Это же правило касается и негативного запроса. Ведь именно он отсекает лишние мутации, анатомические дефекты и тот самый пресловутый эффект размытия. К слову, не стоит пренебрегать дополнительными инструментами контроля, фиксирующими позы и лица. В противном случае время и ресурсы видеокарты будут потрачены впустую.
Как выбрать правильную атмосферу?
Многие считают идеальным вариантом для группы классический студийный свет, но на самом деле он часто обнажает малейшие недостатки генерации кожи и текстур. Куда интереснее и живее смотрится сложный кинематографический свет, пробивающийся сквозь препятствия. Свет, падающий сквозь пыльные деревянные жалюзи на дубовый винтажный стол, мягко подчёркивающий фактуру льняной одежды… И вот тут неминуемо всплывут различные технические нюансы. Если не прописать направление лучей и их температуру, картинка получится плоской и невыразительной.
Обязательно ли указывать конкретную модель фотоаппарата? Вовсе нет. Однако упоминание условного среднеформатного аппарата Hasselblad или культовой плёнки Kodak Portra 400 творит чудеса с итоговой цветопередачей.
Зрелище получается удручающее, когда вместо тёплого вечернего уюта на экране появляется стерильный больничный коридор с синеватым оттенком. А избежать этого поможет добавление в запрос таких мощных маркеров, как «warm tungsten light», «golden hour» или «cinematic moody lighting». Тем более, что именно свет всегда солирует в любой по-настоящему добротной фотографии. Разумеется, придётся немного повозиться с настройками зернистости (film grain), чтобы окончательно убить этот раздражающий глянцевый блеск на лицах.
Домашний уют: повседневный сценарий
Мелкие крошки на столешнице. Именно с таких, казалось бы, абсолютно незначительных деталей начинается настоящий визуальный реализм. В построении домашнего сюжета не стоит гнаться за идеальным порядком на заднем фоне или выверенными позами. Естественно, слишком вычурный интерьер только отвлекает внимание зрителя от главных героев снимка. Настоящий кладезь удачных и трогательных кадров кроется в повседневной, слегка небрежной рутине. Например, родители готовят воскресный завтрак, а их чадо увлечённо рисует рядом. Чтобы машина корректно поняла эту многоуровневую сцену, текстовый запрос формируется строго хронологически. Сперва описывается просторная светлая кухня, залитая мягким утренним солнцем. Затем добавляется мужчина с лёгкой щетиной, облачённый в простую хлопковую футболку, нарезающий свежие овощи. Следом вписывается искренне смеющаяся женщина с растрёпанными волосами, наливающая горячий кофе в керамическую кружку. Замыкает композицию маленький ребёнок, болтающий ногами на высоком стуле. Ну и, конечно же, всё это щедро приправляется техническими параметрами вроде «f/2.8, 35mm lens, shallow depth of field, candid shot». В итоге описание получается весьма внушительным, но результат определённо заслуживает истинного уважения.
Съёмка на природе: лесной антураж
Безусловно, открытые природные локации требуют от автора совершенно иного подхода к построению фраз. Густой хвойный лес, пронизывающий холодный ветер, тяжёлые свинцовые тучи — всё это создаёт невероятно колоритный антураж для мрачной, но стильной истории. И всё же, вписать туда несколько человек без искажений пропорций бывает довольно сложно. Фигуры, укутанные в объёмные шерстяные свитеры, развивающаяся на ветру плотная ткань, слегка обветренные красные щёки… При генерации такой сложной сцены огромная часть фокуса уходит на взаимодействие объектов с агрессивной средой. К тому же, здесь отлично работает прямое указание стилистики конкретных известных фотографов, таких как Питер Линдберг. Запрос строится вокруг суровой атмосферы, где сначала задаётся сама локация — «dark pine forest, moody dramatic sky, morning fog». Потом вписывается семья, одетая в традиционные вязаные кардиганы и грубые кожаные ботинки. Важно вовремя добавить токены «wind in hair, harsh cold light, cinematic composition, desaturated colors». Да и самим героям лучше придать лёгкую задумчивость во взгляде, убрав стандартную американскую улыбку до ушей. Ведь именно самобытный, дикий характер местности диктует настроение всему сгенерированному кадру.
Стоит ли экономить на деталях?
Обыватель довольно часто пытается впихнуть в один короткий абзац текста абсолютно всё: от цвета носков младшего брата до породы соседской собаки на заднем дворе. Это серьёзное вложение ценных токенов в те детали, которые алгоритм всё равно безжалостно перемешает. В итоге на экране всплывает настоящая ложка дёгтя: у собаки появляются человеческие глаза, а у отца семейства внезапно вырастает третья рука. Нужно отметить, что самый оптимальный и скрупулёзный путь — это базовая генерация удачной композиции с минимальным, очень обобщённым описанием одежды. А вот нужные свитера с оленями, винтажные платья и плюшевые игрушки лучше добавлять значительно позже, через локальную перерисовку (inpaint). Кстати, не стоит забывать о математическом весе каждого написанного слова. Термин, гордо стоящий в самом начале запроса, имеет куда больший вес, чем тот, что уныло плетётся в самом конце. Спасательный круг здесь — круглые скобки и десятичные дроби, принудительно усиливающие конкретный элемент (например, (red knitted scarf:1.3)). Впрочем, даже при идеальном техническом задании придётся сделать несколько десятков попыток, прежде чем местный бомонд алгоритмов выдаст шедевр. Махинации с текстовыми переменными требуют колоссального терпения.
Погружаясь в мир генеративного искусства, многие натыкаются на невидимые подводные камни, но именно преодоление этих трудностей делает процесс увлекательным. Искусственный интеллект не сделает всю работу за вас, он лишь послушно выполнит грамотно составленную инструкцию. Эксперименты с промтами открывают безграничные просторы для творчества, позволяя воплотить самые смелые, иногда даже безумные визуальные задумки без аренды дорогих фотостудий. Тщательно выверенный текст сэкономит нервы и поможет создать действительно живые, эмоционально насыщенные кадры, которые не стыдно будет распечатать в большом формате и повесить в гостиной. Удачи в бесконечных поисках идеального виртуального света, пусть каждая сгенерированная работа порадует домочадцев и станет отличным решением для пополнения вашего личного цифрового портфолио.