Буквально десятилетие назад качественная генерация динамичных сцен казалась магией из закрытых голливудских лабораторий, но сейчас сеть пестрит невероятными роликами, создаными нейросетями за пару минут. У среднестатистического обывателя складывается иллюзия абсолютно простого, даже примитивного процесса. Кажется, достаточно вбить пару слов в строку, и умный алгоритм сам додумает изысканный визуальный ряд, выстроив идеальную композицию. На самом деле за каждой плавной проходкой камеры и реалистичной текстурой стоят часы скрупулёзного тестирования текстовых запросов, где любая запятая вносит свою лепту в итоговый результат. А начать стоит с понимания того, как именно машина считывает текстовые команды.
Синтаксис нейросетей: Базовая архитектура запроса
Срабатывает ли хаотичный набор слов? Иногда алгоритм выдаёт сносный результат, но полагаться на слепую случайность профессионалам не с руки. Строить добротный каркас необходимо по строгим правилам. Первым в структуре промта всегда прописывается субъект, заданный максимально точно и конкретно. Далее следует его конкретное действие, обёрнутое в контекст окружающей среды. Третьим этапом задаётся освещение, ну а финальный штрих формируют технические параметры виртуального объектива. К слову, именно такая жёсткая последовательность спасает кадр от визуальной наляпистости. Ведь машина в первую очередь тяготеет к словам, стоящим в самом начале строки. Это же правило касается и мелких деталей гардероба.
Как управлять движением камеры?
Объектив плавно скользит по влажному асфальту, выхватывая неоновые блики ночного мегаполиса. Именно с таких мелких штрихов начинается построение по-настоящему глубокого пространства в генеративных сетях. Динамику кадру задают вполне конкретные команды, заимствованные из реального кинематографа. Один из самых популярных приёмов — это медленное панорамирование, которое прописывается через словосочетание «slow pan left to right». За ним обычно следует зуммирование, реализованное фразой «dolly zoom in». Отдельно стоит упомянуть съёмку с большой высоты. Для неё отлично подходит формулировка «cinematic drone shot flying over a dense foggy forest». Тем более, что именно она добавляет сцене невероятного масштаба. Довольно часто авторы забывают указать скорость воспроизведения. А ведь фраза «slow motion at 120 fps» творит чудеса. Зрелище получается поистине грандиозным.
Освещение
Свет формирует объём. И это не пустые слова из учебника по фотографии. Безусловно, можно довериться настройкам по умолчанию, однако результат вряд ли порадует требовательного зрителя. Залитый вечерним солнцем пейзаж прописывается через «golden hour lighting», притягивающий внимание тёплыми, мягкими оттенками. Для более мрачного, напряжённого антуража применяется «volumetric lighting piercing through the blinds». Этот приём создаёт густые, колоритные тени на лицах персонажей. Сложно ли добиться реалистичности? Настройка света — процесс не сложный, но крайне кропотливый.
Дело в том, что нейросети часто делают картинку слишком плоской. Чтобы этого избежать, не стоит пренебрегать профессиональным сленгом.
Выручит добавление фразы «rim light». Бюджет токенов от добавления пары слов точно не сильно ударит по кошельку. А вот персонаж мгновенно отделится от заднего фона.
Стоит ли прописывать эмоции?
Мёртвые пластиковые лица неизменно становятся главной ложкой дёгтя в реалистичных генерациях. Многие считают, что алгоритм сам поймёт настроение сцены из контекста, но на самом деле машине нужны жёсткие директивы. Вместо банального «грустный человек» целесообразно использовать «subtle melancholic expression with slightly lowered eyes». К тому же, микромимику отлично подчёркивает команда «micro-expressions visible». Разумеется, добиться идеальной передачи сложных чувств без искажений практически невозможно. Но попытаться всё-таки стоит. Обязательно ли указывать возраст и фактуру кожи? Да, это работает как настоящий спасательный круг. Фраза «detailed skin pores and slight wrinkles» лишает лица неестественного, кукольного глянца. Впрочем, лучше отказаться от чрезмерного акцентирования на морщинах. Иначе машина превратит молодого актёра в дряхлого старца.
Кинематографичный стиль: Линзы и форматы
В 1888 году Луи Лепренс снял первую в мире киносцену, потратив на сборку аппарата уйму времени, а сейчас имитация старой плёнки требует лишь пары правильных слов. К первой группе стилистических команд относится указание конкретного типа носителя. Компактное и надёжное решение — вписать «shot on Kodak Portra 400». Далее следует выбор физических характеристик объектива. За красивое размытие заднего фона отвечает «shot on 50mm lens f/1.8». Последним в этом инструментальном ряду идёт добавление текстуры через «film grain and slight chromatic aberration». Естественно, подобные махинации с текстом требуют определённой сноровки. Однако результат заслуживает истинного уважения. Изображение перестаёт кричать о своём полностью синтетическом происхождении.
Вредно ли перегружать текст деталями?
Слишком длинный запрос неминуемо бьёт по бюджету внимания самой нейросети. С одной стороны, хочется скрупулёзно описать каждую пылинку в воздухе, с другой — машина начинает путаться в показаниях, выдавая жуткие артефакты. Львиная доля успеха кроется в строгой лаконичности. Сначала прописывается смысловое ядро, усиленное мощными глаголами, затем накладывается стилистика, дополненная параметрами камеры, отполированная командами финального рендеринга. В качестве примера: «A cyberpunk street vendor cooking noodles in heavy rain, neon reflections, cinematic lighting, Unreal Engine 5 render, 8k resolution». Нужно отметить, что упоминание конкретных графических движков до сих пор отлично работает. И хотя некоторые новые платформы уже слабо реагируют на приписку «Octane Render», в большинстве случаев она всё ещё имеет огромный вес.
Анимация физики
Тяжёлые свинцовые капли с грохотом разбиваются о лобовое стекло автомобиля. Физика частиц даётся генеративным сетям крайне тяжело. И всё же заставить воду или дым вести себя естественно вполне реально. Для имитации текучих жидкостей стоит использовать формулировку «realistic fluid dynamics simulation». Взрывы и масштабные разрушения описываются через «slow-motion particle explosion with volumetric smoke». Ну и, конечно же, не забывайте про влияние стихии. Команда «clothes fluttering in strong wind» моментально оживляет статичного героя. Выглядит впечатляюще. Конечно, странные метаморфозы объектов неизбежны, однако с каждой новой версией моделей их становится всё меньше. Оседает цифровая пыль, всплывают логические ошибки алгоритмов, но в целом иллюзия жизни сохраняется. Главное — не перегружать кадр множеством хаотичных движений одновременно.
Отрицательные промты
Негативные запросы работают не везде. Но там, где они поддерживаются, игнорировать их нельзя.
Постулаты чистой генерации гласят, что машине нужно указывать не только на желаемое, но и на запретное.
В поле негативного промта обычно отправляются такие слова, как «mutated, extra limbs, blurry, deformed, watermark, text». Искусственный интеллект часто грешит добавлением лишних пальцев или странных водяных знаков, имитирующих стоковые фотографии. Отсекая этот мусор на этапе формирования задачи, автор экономит себе часы времени на постобработке. Не скупитесь на объёмные негативные списки. Ведь именно они зачастую определяют чистоту финального файла.
Поиск идеальной текстовой формулы часто напоминает увлекательную игру с непредсказуемым финалом. Удачи в освоении этого цифрового искусства, пусть каждый новый отрендеренный фрагмент превосходит первоначальные ожидания, а созданный видеоряд запомнится надолго.