В сети гуляет бесчисленное множество видео, где очаровательные малыши неуклюже или, наоборот, поразительно умело двигаются под музыку. Такие ролики мгновенно собирают лайки и вызывают умиление, ведь в них есть неподдельная искренность и радость. Буквально пару лет назад создание подобного контента было уделом родителей, вооружённых смартфонами. Но сейчас, с развитием генеративных нейросетей, способных создавать видео по текстовому описанию, у каждого появилась возможность сотворить свой собственный маленький шедевр. Однако результат часто разочаровывает: вместо милого чада на экране появляется нечто из «зловещей долины». Поэтому, чтобы не разочароваться в результате, стоит заранее разложить по полочкам все нюансы составления правильного запроса.
С чего начинается магия?
Задача не из лёгких. Ведь нейросеть — это не волшебник, а скрупулёзный исполнитель, который понимает команды буквально. Чтобы получить видео, которое приковывает внимание, а не вызывает недоумение, нужно дать машине максимально детализированную инструкцию. Что насчёт структуры? Лучший вариант — это следовать логике художника или режиссёра. Во-первых, стоит определиться с главным героем ролика. Во-вторых, нужно подробно описать его действие. В-третьих, необходимо продумать окружение или фон, на котором всё происходит. Ну и, наконец, задать общую стилистику и технические параметры съёмки. Именно комбинация этих четырёх столпов и создаёт тот самый качественный и живой результат, к которому все так грезят.
Базовые составляющие промта: Разбираем по косточкам
Первым делом стоит определиться с главным героем. Просто написать «ребёнок» — значит, отдать всё на откуп случайности. Внешность малыша нейросеть должна понимать чётко. Укажите возраст (например, «3-летний мальчик» или «девочка 7 лет»), цвет волос и причёску («светлые кудряшки», «тёмные волосы, собранные в хвост»), цвет глаз, этническую принадлежность и, конечно же, одежду. Описание наряда творит чудеса. Сравните «мальчик в одежде» и «мальчик в смешной пижаме с динозаврами и в пушистых тапочках». Второй вариант даёт нейросети гораздо больше конкретики, а значит, и результат будет более предсказуемым и интересным.
Далее следует танец. Это же правило касается и действия. «Танцует» — слишком общее понятие. Каким он будет? Энергичным или плавным? Можно уточнить стиль: «неуклюже топает ножками в такт музыке», «исполняет забавные хип-хоп движения», «кружится, как балерина», «радостно прыгает». Чем больше глаголов и наречий, описывающих движение, тем живее оно получится. Не стоит забывать и об эмоциях. Обязательно добавьте «счастливо улыбается», «сосредоточенно хмурит брови», «заразительно смеётся». Именно эмоции вдыхают в сгенерированное видео жизнь.
Нельзя забывать и про антураж. Место действия играет огромную роль в создании атмосферы. Где танцует ваше чадо? В залитой солнцем гостиной с разбросанными игрушками? На профессиональной сцене с софитами и дымом? А может, в волшебном лесу, где светлячки кружатся вокруг? Каждый из этих фонов создаст совершенно разное настроение. Описание деталей окружения, таких как «мягкий ковёр на полу», «винтажная мебель», «огромное окно с видом на город», помогает нейросети построить более глубокую и проработанную сцену.
Ну и, конечно же, визуальный стиль. Это та самая изюминка, которая превращает просто видео в произведение искусства. Здесь нужно указать параметры, которые обычно используют фотографы и операторы. Например, можно задать кинематографичность («cinematic lighting»), тип съёмки («снято на 35-мм плёнку», «качество 4К», «гиперреализм»), особенности освещения («мягкий утренний свет», «неоновое освещение», «золотой час»). К тому же, можно стилизовать видео под определённый жанр или художника, добавив, к примеру, «в стиле студии Pixar» или «аниме-стиль студии Ghibli». Это довольно мощный инструмент для получения впечатляющих кадров.
Как избежать эффекта «зловещей долины»?
Это, пожалуй, главный подводный камень при работе с генерацией людей. Иногда нейросеть создаёт персонажей с неестественными движениями, пустым взглядом или странными пропорциями. Чтобы минимизировать этот риск, стоит придерживаться нескольких правил. Во-первых, не перегружайте промт слишком сложными, противоречивыми командами. Пусть танец будет простым и естественным для ребёнка. Во-вторых, используйте уточняющие слова вроде «естественные движения», «живая мимика», «счастливый взгляд». В-третьих, иногда лучше отказаться от гиперреализма в пользу стилизации (например, под мультфильм), где мелкие анатомические неточности не так бросаются в глаза и не вызывают отторжения.
Готовые промты для вдохновения
Чтобы теория не была голой, давайте рассмотрим несколько конкретных примеров. Разумеется, все промты стоит писать на английском языке, так как львиная доля моделей обучена именно на нём.
Начнём с чего-то простого и милого. Представим малыша, танцующего дома. Промт может выглядеть так:
«A cute 3-year-old toddler boy with blond curly hair, wearing a funny dinosaur pajama, is dancing joyfully in a sun-drenched living room. Soft morning light, toys scattered on the floor. Shot on a modern smartphone, 4K, high detail, happy smiling face, natural movements».
Здесь мы чётко описали персонажа, его одежду, радостное действие, детальный фон, освещение и технические параметры.
А вот вариант для любителей фэнтези. Здесь акцент смещается на атмосферу и стиль.
«A 7-year-old girl with long red hair and a white ethereal dress is gracefully dancing in an enchanted forest at night. Fireflies are glowing around her. Cinematic lighting, fantasy, magical atmosphere, in the style of a Disney movie, highly detailed, serene expression».
В этом запросе солирует антураж и отсылка к известной стилистике, что помогает нейросети уловить нужное настроение.
Совершенно иная атмосфера потребуется для динамичного уличного танца. Здесь важны энергия и движение.
«Energetic 10-year-old boy in a baseball cap, baggy jeans, and a hoodie doing breakdance moves on a colorful graffiti-covered city street. Dynamic camera angle, motion blur, vibrant colors, hip-hop culture, shot from a low angle, hyperrealistic».
Указание на ракурс («shot from a low angle») и эффект размытия («motion blur») добавляет сцене динамики.
Ну и, наконец, обратимся к кинематографичности и эмоциям. Допустим, нам нужна сцена с балериной.
«A little girl in a pink ballet tutu practicing ballet moves in a dance studio with large mirrors and a barre. She has a focused and dreamy expression. Soft, warm light from a large window. Cinematic, shallow depth of field, gentle and emotional mood, 35mm film look».
Использование термина «shallow depth of field» (малая глубина резкости) поможет сфокусировать внимание на девочке, размыв фон и усилив эмоциональный эффект.
Тонкая настройка: Негативные промты
Отдельно стоит упомянуть такой инструмент, как негативные промты. Это слова-ограничители, которые говорят нейросети, чего в кадре быть НЕ должно. Обычно они добавляются в конце основного запроса с помощью специального параметра. Дело в том, что иногда у ИИ всплывают артефакты: лишние пальцы, размытые лица, искажённые объекты. В негативный промт можно вписать:
«–no ugly, deformed, blurry, bad anatomy, extra limbs, poorly drawn hands, poorly drawn face, watermark».
Это своего рода спасательный круг, который помогает отсечь львиную долю брака и повысить качество финального видео.
Самое главное — не бояться экспериментировать. Иногда самые неожиданные комбинации слов рождают настоящие шедевры. Меняйте возраст, одежду, локации, стили. Пробуйте добавлять самые безумные детали, ведь именно в этом и заключается прелесть творчества с помощью искусственного интеллекта. Удачи в ваших творческих начинаниях, и пусть ваши цифровые шедевры приносят только радость.