Как писать промты для видео (с примерами готовых промтов)

В сети полно впечатляющих видеороликов, сгенерированных искусственным интеллектом, которые, кажется, творят настоящую магию. Глядя на них, многие тоже грезят о создании собственных короткометражек: от эпических космических баталий до медитативных пейзажей. Однако первые попытки часто приводят к разочарованию – вместо кинематографического шедевра нейросеть выдаёт нечто странное, аморфное и совершенно далёкое от первоначальной задумки. Вся суть в том, что ИИ не читает мысли, он лишь скрупулёзно выполняет техническое задание. Но чтобы не разочароваться в результате, нужно освоить язык общения с нейросетью. А начать стоит с понимания того, как правильно формулировать запросы, или, как их принято называть, промты.

Что такое промт для видео?

В представлении многих обывателей промт – это просто пара слов, описывающих желаемое. Например, «кот на крыше». Для создания статичного изображения этого может быть вполне достаточно, но генерация видео – процесс куда более сложный и многогранный. Здесь промт превращается в подробный сценарий, режиссёрскую экспликацию и инструкцию для оператора в одном флаконе. Это детальное описание не только объекта и его действий, но и стиля, атмосферы, движения камеры, освещения и множества других нюансов, которые в совокупности и создают ту самую магию. Сложно ли это? На самом деле, нет. Главное – разложить всё по полочкам и понять, из каких кирпичиков строится добротный, работающий запрос. Тем более что основные постулаты универсальны для большинства видео-нейросетей.

Базовые компоненты: из чего состоит запрос?

Задача не из лёгких, но вполне решаемая. Чтобы нейросеть вас поняла, запрос должен содержать несколько ключевых смысловых блоков. Во-первых, это, разумеется, объект и его действие. Нужно максимально конкретно указать, кто или что находится в кадре и чем он занят. Не просто «девушка идёт», а «молодая девушка с длинными рыжими волосами в развевающемся на ветру зелёном платье медленно идёт по пшеничному полю». Чувствуете разницу? Детализация творит чудеса.

Далее следует стилистика – один из самых важных критериев. Именно она определяет визуальный антураж будущего ролика. Хотите ли вы получить картинку в духе аниме Хаяо Миядзаки, мрачный нуарный фильм, яркий клип в стиле 80-х или гиперреалистичную съёмку, похожую на кадры с камеры IMAX? Всё это стоит указать. Можно ссылаться на имена известных режиссёров (например, «в стиле Уэса Андерсона» или «cinematic shot by Denis Villeneuve»), на художественные направления (импрессионизм, сюрреализм, киберпанк) или на технические характеристики («8mm film», «documentary style», «CGI»). Это же правило касается и общей цветовой палитры.

Отдельно стоит упомянуть ракурсы и движение камеры. От этого элемента напрямую зависит динамика и восприятие сцены. Камера может плавно следовать за объектом (tracking shot), облетать его по кругу (orbiting shot), резко приближаться (zoom in) или отдаляться (zoom out). Важен и ракурс: съёмка с нижнего ракурса (low angle shot) придаст объекту величия, а вид сверху (bird’s-eye view) позволит охватить всю сцену целиком. Не стоит пренебрегать этими инструментами, ведь именно они приковывают внимание зрителя и создают эффект присутствия.

Ну и, конечно же, детализация и атмосфера. Львиная доля успеха зависит от мелочей. Время суток (золотой час, полночь, пасмурный полдень), погодные условия (лёгкий туман, проливной дождь, падающий снег), освещение (мягкий свет от свечей, резкие неоновые вывески, тусклый свет луны) – всё это вносит свою незаменимую лепту в итоговый результат. Эти, казалось бы, незначительные детали помогают нейросети создать глубокую и правдоподобную картинку, а не плоский и безжизненный набор пикселей.

Продвинутые техники: как добавить динамики?

Когда базовые принципы освоены, можно переходить к более сложным махинациям. Одна из таких техник – использование отрицательных промтов (negative prompts). С одной стороны, вы описываете всё, что хотите видеть в кадре. С другой – перечисляете то, чего там быть категорически не должно. Это спасательный круг в борьбе с типичными артефактами нейросетей: лишними пальцами, искажёнными лицами, размытостью, плохим качеством. Например, добавив в отрицательный промт «blurry, grainy, deformed, low quality», вы существенно повышаете шансы на получение чистого и качественного видео.

Ещё один важный аспект – управление движением внутри кадра. Можно задавать не только движение камеры, но и скорость перемещения объектов. Например, «a man running fast» или «clouds moving slowly across the sky». Некоторые модели (особенно продвинутые) позволяют указывать направление движения, например, «pan left» (панорамирование влево) или «tilt up» (наклон камеры вверх). Такие команды делают ролик более управляемым и предсказуемым. К тому же, всегда стоит проверять документацию конкретной нейросети на предмет специальных параметров, которые могут задаваться через команды, например, соотношение сторон кадра (–ar 16:9) или степень стилизации.

Готовые примеры промтов

Теория – это хорошо, но без практики она мертва. Давайте рассмотрим несколько конкретных примеров, чтобы закрепить материал. Представим, что нам нужен короткий, атмосферный и довольно простой ролик. Цель: уютная сцена с котом. Промт мог бы выглядеть так:

Рыжий кот спит на деревянном подоконнике, за окном идёт мягкий снег, тёплый свет от настольной лампы, кинематографичный кадр, снято на 35-мм плёнку, уютная атмосфера, высокая детализация

Здесь есть всё: объект (кот), действие (спит), окружение (подоконник, снег), освещение (лампа) и чётко заданная стилистика (кино, плёнка).

А вот пример для чего-то более грандиозного и динамичного. Задача: пролёт камеры над футуристическим городом. Попробуем такой промт:

Пролёт камеры над мегаполисом будущего в стиле киберпанк, парящие автомобили, гигантские неоновые голограммы, идёт сильный дождь, отражения в мокром асфальте, мрачная атмосфера, вид с высоты птичьего полёта, в стиле фильма «Бегущий по лезвию», 8K, фотореализм

В этом запросе основной акцент сделан на движении камеры («пролёт», «вид с высоты»), стиле (киберпанк, «Бегущий по лезвию») и атмосферных деталях (дождь, отражения, неон), которые и создают колоритный образ.

Ну и, наконец, что-то более абстрактное. Цель: красивый визуальный эффект. Запрос может быть совсем коротким, но ёмким:

Капли жидкого золота медленно падают на тёмную зеркальную поверхность, создавая круги, макросъёмка, кинематографическое освещение, замедленное движение (slow motion), гипнотизирующе

Здесь солирует описание самого процесса, а технические уточнения вроде «макросъёмка» и «slow motion» помогают нейросети точно понять, какой именно эффект от неё требуется.

Не бойтесь экспериментировать, смешивать стили и ошибаться. Каждый неудачный результат – это тоже опыт, который подскажет, какие формулировки работают лучше, а от каких стоит отказаться. Удачи в покорении мира нейровидео!