Написать промт для создания видео (с примерами готовых промтов)

Буквально пару лет назад сама идея генерации видео по текстовому описанию казалась чем-то из области научной фантастики. Мы смотрели на первые, довольно неуклюжие и размытые ролики, созданные нейросетями, и удивлялись самому факту их существования. Сегодня же технологии шагнули так далеко, что позволяют создавать короткометражные фильмы, рекламные ролики и просто завораживающие визуальные образы, которые сложно отличить от реальной съёмки. Однако, как и любой мощный инструмент, нейросеть требует правильного подхода. Она не читает мысли, а лишь скрупулёзно следует инструкциям. А для этого нужно научиться говорить на её языке, то есть составлять грамотные промты.

Основы основ: из чего состоит запрос?

Задача не из лёгких. В представлении многих обывателей достаточно написать «красивый закат над морем», чтобы получить шедевр. Но на деле нейросеть, получив такой запрос, впадёт в ступор от обилия вариантов. Какой закат? В какой стилистике? Какое море – бурное или спокойное? Чтобы результат не разочаровал, запрос стоит строить на нескольких китах. Это база. Фундамент. Во-первых, это главный объект или субъект сцены. Нужно максимально подробно описать, кто или что находится в центре нашего внимания. Во-вторых, необходимо указать действие, которое совершает этот объект. Статичные кадры тоже хороши, но видео – это прежде всего движение. В-третьих, не менее важна и обстановка, то есть фон, окружение и атмосфера. Ну и, наконец, в-четвёртых, всё это венчает стиль, который определяет визуальную эстетику ролика.

С чего начинается работа? Разумеется, с главного героя кадра. Не стоит ограничиваться общими понятиями вроде «девушка» или «машина». Конкретика творит чудеса. Вместо «девушка» лучше написать «молодая девушка с длинными рыжими волосами, веснушками и в зелёном летнем платье». Вместо «машина» – «красный винтажный кабриолет 1960-х годов с хромированными деталями». Чем больше таких уточнений, тем меньше у нейросети пространства для нежелательной импровизации. Ведь именно из таких мелочей и складывается целостный, убедительный образ, который приковывает внимание зрителя и заставляет поверить в происходящее на экране. Львиная доля успеха зависит именно от этой скрупулёзной подготовительной работы.

Далее следует действие. Что делает наш персонаж или объект? «Девушка идёт» – звучит довольно скучно. «Девушка неспешно прогуливается по узкой улочке старого города, с улыбкой глядя на витрины магазинов» – уже совсем другая история. Движение должно быть осмысленным и передавать настроение. Отдельно стоит упомянуть детализацию этого движения. Например, «дракон летит» можно превратить в «огромный чёрный дракон с рваными крыльями медленно и тяжело взмахивает ими, пролетая над спящим городом». Такие глаголы и наречия задают ритм и динамику будущему видеоролику, делая его либо стремительным и напряжённым, либо, наоборот, медитативным и спокойным.

Технические детали: управляем камерой и светом

Когда основная сцена готова, наступает время для махинаций с камерой и светом. Это же настоящий режиссёрский пульт! Нужно отметить, что современные нейросети для генерации видео понимают команды, связанные с кинопроизводством. Один из самых очевидных инструментов – ракурс. Можно указать «вид с высоты птичьего полёта» (drone shot), чтобы показать масштаб, или «съёмка крупным планом» (close-up), чтобы сосредоточиться на эмоциях персонажа. Существуют и другие варианты: «съёмка с нижнего ракурса» (low angle shot) придаст объекту величия, а «голландский угол» (dutch angle) создаст ощущение тревоги и безумия. Не стоит пренебрегать и движением самой камеры – плавный «пролёт камеры» (dolly shot) или «облёт объекта» (orbit shot) сделают сцену куда более динамичной, чем статичный кадр.

Свет – это вообще отдельная магия. Ведь именно он создаёт настроение и атмосферу. Простое указание «солнечный день» уже неплохо, но можно пойти дальше. Термин «золотой час» (golden hour) заставит нейросеть сгенерировать мягкий, тёплый свет заходящего солнца. «Драматическое освещение Рембрандта» погрузит сцену в игру света и тени, выделив лишь ключевые детали. А запрос «неоновое освещение в стиле киберпанк» (cyberpunk neon lighting) моментально перенесёт зрителя на улицы ночного мегаполиса будущего. К слову, можно указывать и специфику оптики, например, «широкоугольный объектив» (wide-angle lens) для искажения перспективы или имитацию съёмки на плёнку (например, 16mm или 35mm) для достижения винтажного эффекта.

Готовые примеры: от простого к сложному

Давайте разложим всё по полочкам на конкретных примерах. Начнём с чего-то довольно тривиального. Представим, что мы хотим получить ролик с котом. Простой запрос будет звучать так:

Котёнок играет с клубком ниток.

Что мы получим? Скорее всего, довольно стандартное, ничем не примечательное видео. Нейросеть сама выберет породу котёнка, цвет клубка и фон. Результат может получиться неплохим, но в нём не будет изюминки.

А теперь давайте усложним задачу и добавим деталей, о которых говорили выше.

Очаровательный рыжий котёнок породы мейн-кун с кисточками на ушах игриво катает большой клубок синей шерсти по старому деревянному полу в залитой солнцем комнате. Мягкий утренний свет падает из окна, создавая длинные тени. Съёмка крупным планом, кинематографическое качество, высокая детализация меха.

Чувствуете разницу? Одна и та же базовая идея, но во втором случае мы получаем полный контроль над сценой: от породы котёнка и цвета ниток до времени суток и типа съёмки. Такой промт с гораздо большей вероятностью даст впечатляющий и осмысленный результат.

Или, к примеру, запрос для создания чего-то более грандиозного.

Эпический пролёт камеры над футуристическим городом ночью. Огромные небоскрёбы с голографической рекламой, летающие автомобили проносятся по воздушным трассам. Город освещён яркими неоновыми огнями синего и фиолетового цвета. Идёт сильный дождь, капли стекают по объективу камеры. Стиль киберпанк, в духе фильма «Бегущий по лезвию». Высокое разрешение, 8K, фотореализм.

Здесь мы задаём не только объект и атмосферу, но и прямо указываем на референс (фильм), что помогает нейросети лучше понять желаемую эстетику.

Ну и, наконец, пример для анимации.

Молодая ведьма в остроконечной шляпе и тёмной мантии летит на метле над осенним лесом. Под ней простираются деревья с жёлтыми и оранжевыми листьями. Она улыбается, её волосы развеваются на ветру. Стиль студии Ghibli, пастельные тона, акварельная техника. Плавная анимация, 2D.

Такой промт чётко определяет не только сюжет, но и художественный стиль, который в анимации играет первостепенную роль.

Частые ошибки: чего стоит избегать?

Есть ли подводные камни? Безусловно. Главный враг хорошего промта – это двусмысленность и перегруженность. Не стоит пытаться впихнуть в один запрос десять разных действий и объектов. Нейросеть, скорее всего, запутается и выдаст нечто хаотичное. Лучше сосредоточиться на одной ключевой сцене. Ещё одна распространённая ошибка – смешение несовместимых стилей. Например, «фотореалистичный мультяшный персонаж в стиле готического хоррора» – такой запрос, скорее всего, приведёт к удручающему зрелищу. Нужно быть последовательным.

Кроме того, не стоит злоупотреблять слишком абстрактными понятиями, такими как «счастье», «грусть» или «любовь». Нейросеть воспринимает их буквально и может сгенерировать что-то совершенно неожиданное. Вместо этого лучше описывать действия и мимику, которые передают эти эмоции. Вместо «грустная девушка» лучше написать «девушка сидит на подоконнике и смотрит на дождь за окном, по её щеке катится слеза». Это куда более конкретная и понятная для машины инструкция.

На самом деле, идеального рецепта промта не существует. Это всегда процесс творческого поиска и экспериментов. Какие-то нейросети лучше понимают одни команды, какие-то – другие. Иногда самый неожиданный и странный запрос вдруг выдаёт настоящий шедевр. Главное – не бояться экспериментировать, пробовать новое, менять слова местами и оттачивать свои навыки. Удачи в ваших творческих начинаниях!