Промт для танца ии (с примерами готовых промтов)

В сети представлено множество сгенерированных роликов, где виртуальные персонажи двигаются с пугающей реалистичностью. Кажется, что заставить нейросеть выдать идеальную хореографию довольно просто — написал пару строк, нажал кнопку, и результат готов. Плохой сон для любого видеомейкера — это не всегда технический сбой, а скорее пластилиновые, изломанные фигуры, выдающие вместо брейк-данса хаотичные конвульсии. Ведь машина пока не умеет читать мысли, ей требуется предельно точная текстовая команда. Поэтому перед генерацией желательно чётко осознать механики общения с алгоритмом.

С чего начинается выбор? С определения базы

Задача не из лёгких. Нужно ли сразу писать километровые тексты? Вовсе нет. А начать стоит с понимания того, какой именно стиль требуется получить на выходе. Обыватель часто совершает грубую ошибку, вбивая общие фразы вроде «красиво танцующая девушка». Зрелище, как правило, получается удручающее. Ведь алгоритмам нужна конкретика, привязанная к существующим школам хореографии. К первой группе относится классический балет, требующий строгих линий, натянутых носков, зафиксированной осанки. Далее следует хип-хоп, где солирует уже совершенно иная динамика с резкими фиксациями и широкими движениями рук. Ну и, наконец, замыкает тройку лидеров контемпорари, тяготеющий к полу, плавным перекатам и эмоциональной экспрессии. К слову, львиная доля успешных генераций опирается именно на точное указание стиля в самом начале запроса. Это надёжно. Потому что проверено. Временем.

Анатомия правильного запроса

Постепенно, кадр за кадром, картинка начинает обретать осмысленные формы. Буквально десятилетие назад это было роскошью, но сейчас создание виртуального исполнителя требует лишь грамотного подхода к тексту. Формировать команду нужно последовательно. Сначала задаётся главный субъект, облачённый в специфическую одежду, подчёркивающую движения. Затем прописывается само действие, дополненное указанием скорости, ритма, амплитуды. Завершающим этапом становится настройка виртуальной камеры, выхватывающей нужные ракурсы, освещающей сцену кинематографичным светом, создающей необходимый антураж. Естественно, процесс не сложный, но кропотливый. С одной стороны, можно довериться случайности, с другой — скрупулёзный текстовый контроль творит чудеса. Не стоит забывать про фон. Ведь именно он задаёт атмосферу, в которой будет существовать надёжный современный персонаж.

Как избежать частых ошибок?

Ошибаются все. Всплывут ли артефакты при первой попытке? Разумеется. Вся суть в том, что нейросети плохо справляются со сложной геометрией человеческих конечностей. Не перегружайте запрос лишними деталями вроде количества пальцев на руке, цвета шнурков или мелких узоров на ткани. Лучше отказаться от чересчур длинных предложений. Дело в том, что внимание алгоритма рассеивается, если в одном абзаце смешать описание танго, футуристичный городской пейзаж, неоновую подсветку. Текст, разбитый на чёткие смысловые блоки, разделённый запятыми, переведённый на английский язык, сработает гораздо эффективнее. Стоит отметить, что англоязычная терминология воспринимается системами намного точнее, поскольку их обучали именно на таких дата-сетах. К тому же, не стоит гнаться за максимальной продолжительностью ролика. Кошелёк станет легче, если использовать платные токены на длинные видео, а результат всё равно может развалиться на третьей секунде.

Динамика

Скорость решает всё. Это критично. Ведь танец без ритма превращается в обычную гимнастику. И всё же многие игнорируют параметры размытия в движении. Сложно ли настроить этот нюанс? Довольно просто, если использовать правильные слова. Внося в текст такие понятия, как «motion blur» или «dynamic action», вы помогаете алгоритму сгладить межкадровые переходы. А вот оригинальное название танцевального элемента лучше брать из профессиональных словарей хореографов. Например, вместо абстрактного «крутится на месте» имеет смысл написать «pirouette». Исторически сложилось так, что балетные термины (пришедшие из Франции ещё в семнадцатом веке) отлично распознаются западными языковыми моделями. Мгновенно меняется пластика. Настоящий рай для визуализатора.

Практика: примеры рабочих команд

Перейдём к самому интересному. Готовых рецептов существует великое множество, однако некоторые из них работают почти безотказно. Один из самых популярных видов – это создание современного хип-хоп видео. Выглядит запрос примерно так:

«Cinematic shot, young man in oversized streetwear dancing hip-hop on a neon-lit city street, dynamic moves, sharp pops and locks, wet asphalt reflecting lights, 4k resolution, 60fps».

Обратите внимание на структуру. Здесь есть и добротный уличный антураж, и чёткое указание стиля. Следующий важный критерий – это студийная съёмка с идеальным светом. Для такого случая подойдёт другой вариант:

«Professional studio lighting, female contemporary dancer performing a dramatic solo, flowing silk dress, slow motion, elegant poses, emotional expression, high contrast, clean background».

Зрелище впечатляющее. Отдельно стоит упомянуть генерацию массовых сцен, хотя они и бьют по бюджету вычислительных мощностей. Фраза «Group of breakdancers performing synchronic moves in an abandoned warehouse, gritty atmosphere, dust in the air, low angle camera, fast paced action» задаёт колоритный индустриальный тон. Ну, а для любителей экзотики спасательным кругом станет текст: «Traditional flamenco dancer, red dress, wooden stage, passionate movements, dramatic spotlight, motion blur on the skirt».

Стилизация под разные эпохи

Пыль веков. Многие считают, что искусственный интеллект годится только для создания киберпанка или вычурных неоновых миров, но на самом деле он отлично справляется с ретро-эстетикой. В начале двадцатого века, когда кинематограф только делал свои первые шаги, танцы снимали на плёнку с низкой частотой кадров. Повторить этот самобытный винтажный эффект довольно сложно, но возможно. В текст достаточно добавить фразы вроде «1920s style», «flapper dance», «grainy film look», «black and white». И вдруг на экране оживает атмосфера ревущих двадцатых. А если вспомнить эпоху диско? Шары с зеркальным напылением (подвешенные под потолком), яркие костюмы, специфическая пластика семидесятых годов. Чтобы всё это великолепие не превратилось в наляпистость, не забудьте прописать «70s disco club aesthetic» и «vintage color grading». Безусловно, каждая эпоха имеет свою изюминку.

Внимание к деталям: руки и лица

Лицо танцора скрыто в тени. Именно с таких хитростей начинают свой путь многие опытные креаторы. Почему это работает? Дело в том, что прорисовка мелких черт лица в динамике до сих пор вызывает жуткие искажения. Глаза уплывают, мимика превращается во что-то зловещее. Стоит задуматься о том, чтобы изначально указать в запросе «faceless», «wearing a mask», или попросту увести объектив за спину исполнителя («shot from behind»). Это же правило касается и кистей рук, которые нейросети часто наделяют шестью пальцами. Выручит грамотный подбор одежды. Персонаж, одетый в длинные струящиеся рукава, спрятавший ладони в карманы объёмной куртки, надевший плотные перчатки, будет смотреться в кадре куда более органично. Нет смысла переплачивать за неудачные дубли, когда можно технично обойти этот нюанс на этапе написания текста.

Роль освещения

Свет формирует объём. Без грамотно выставленного освещения даже самая выверенная хореография сольётся в плоское, невыразительное пятно. С чего начинается построение кадра? С определения источника света. Обыватель часто забывает про этот этап. Зрелище получается тусклым, серым. А ведь стоит лишь добавить пару слов, и картинка кардинально меняется. Контровой свет, прорисовывающий силуэт танцора, выхватывающий из темноты контуры тела, создающий ореол вокруг волос, придаст сцене поистине изысканный вид. В промте это будет звучать как «backlighting» или «rim light». Нельзя не упомянуть и про цветные фильтры. Глубокий синий фон, прорезанный тёплым оранжевым лучом, бьющим прямо на солирующего артиста, создаёт тот самый киношный контраст, к которому так тяготеет современный бомонд. Главное — угадать с палитрой. Не стоит перебарщивать с количеством оттенков, лучше остановиться на двух-трёх базовых цветах. Тем более, что лаконичность всегда в моде.

Как выбрать ракурс?

Ракурс решает всё. Статика убивает танец. ИИ-модели по умолчанию стремятся поставить воображаемого оператора на уровень груди человека, снимая происходящее строго в анфас. Картинка получается качественная, но невероятно скучная. Снимать нужно снизу. Нижняя точка съёмки («low angle shot») визуально удлиняет ноги, делает прыжки более внушительными, добавляет фигуре грандиозности. А вот для масштабных постановок с десятками статистов отлично подойдёт вид сверху («birds eye view»). Оптика, парящая под потолком, фиксирующая сложные геометрические перестроения кордебалета, захватывающая дух своей масштабностью, принесёт ролику стопроцентный успех. К слову, не стоит гнаться за постоянной сменой планов внутри одной генерации. Это чревато потерей согласованности кадров. Пусть виртуальный объектив плавно следует за движениями («tracking shot»), сохраняя фокус на главном действии.

Эксперименты с визуальными моделями открывают поистине безграничные перспективы. Ложка дёгтя кроется лишь в необходимости постоянно перебирать слова, искать идеальные комбинации, тратить часы на генерацию пробных вариантов. Но ведь именно в этом скрупулёзном поиске и рождается настоящее искусство, пусть и написанное машинным кодом. Да и любому человеку сейчас гораздо проще внести свою лепту в создание цифрового контента. Не бойтесь ломать стереотипы, смешивать разные стили хореографии, добавлять необычные операторские приёмы в свои запросы. Пусть каждый новый ролик порадует домочадцев и подписчиков безупречной пластикой виртуальных исполнителей.