В сети представлено множество роликов, созданных нейросетями, и с первого взгляда кажется, будто магия буквально льётся рекой по экрану смартфона. Буквально пару лет назад движущаяся картинка с искажёнными лицами вызывала лишь снисходительную улыбку, но сейчас сгенерированные кадры приковывают внимание даже самых искушённых зрителей. Обыватель часто думает, что достаточно попросить умную машину нарисовать красиво, и шедевр готов. Однако на самом деле за каждым плавным пролётом камеры стоят довольно скрупулёзные текстовые махинации. Но чтобы не ошибиться и не слить кредиты впустую, нужно понять саму логику общения с искусственным интеллектом.
Анатомия текстового запроса
Кадры сменяются за три миллисекунды. А ведь именно так алгоритм воспринимает наши слова, пытаясь склеить разрозненные пиксели воедино. С чего начинается создание хорошего ролика? С понимания того, что нейросеть не обладает человеческой фантазией. Первым делом стоит прописать объект съёмки, будь то колоритный старец или грандиозный замок на скале. Далее следует указать крупность плана вкупе с движением камеры. Затем в структуру логично вплетается описание освещения, ведь именно оно задаёт нужный антураж. Ну и, наконец, финальным штрихом выступает стилистика. Дело в том, что отсутствие хотя бы одного из этих элементов превращает результат в непредсказуемую кашу. К слову, львиная доля неудач связана именно с излишней краткостью автора.
Стоит ли экономить на деталях?
Вовсе нет. Скупой платит дважды, а в нашем случае — растрачивает драгоценные минуты машинного времени. Многие считают, что короткая фраза даст свободу творчеству алгоритма, но на самом деле машина просто возьмёт самый заезженный шаблон из своей базы. И всё же перегружать текст тоже не стоит. Наляпистость лишних эпитетов только запутает систему. Лучше отказаться от абстрактных философских понятий в пользу физических свойств. Например, вместо слова «радость» логичнее использовать улыбку, освещённую ярким солнцем. Это же правило касается и динамики. Плавным панорамированием управлять довольно просто, тогда как просьба сделать эпично обычно выдаёт совершенно неоднозначный результат. Впрочем, со временем нужные формулировки всплывут в памяти сами по себе.
Кинематографичный пейзаж
Поражает масштаб. Потому что захватывает дух. Исконно природные мотивы всегда давались алгоритмам чуть легче генерации человеческих лиц. Если хочется получить изысканный горный вид, начать стоит с чёткого указания локации. Отличным вариантом станет следующий запрос:
«Съёмка с квадрокоптера летит над заснеженным сосновым лесом на рассвете. Густой туман плотно стелется по земле. Дополняет картину кинематографичное освещение вкупе с фотореализмом».
Нужно отметить, что здесь солирует именно свет. Тёплые лучи творят чудеса с восприятием картинки. Конечно, генератор иногда может дорисовать лишнюю ветку, однако общее настроение передаётся безупречно. Да и самим зрителям приятнее смотреть на добротный реалистичный пейзаж.
Как оживить персонажа?
Задача не из лёгких. Человек подсознательно распознаёт малейшую фальшь в мимике. Сложно ли заставить героя естественно моргать и дышать? Да, но результат того стоит. К первой группе успешных команд относится точное описание внешности вплоть до текстуры кожи. Следующий важный критерий затрагивает само действие. Стоит попробовать такой промт:
«Крупный план лица молодой женщины с веснушками. Она медленно поворачивает голову к камере и слегка улыбается. Снято с мягким студийным светом на объектив пятьдесят миллиметров».
Вся суть в том, что мы не просим её танцевать или бегать. Компактное решение — ограничить амплитуду движений. Естественно, не стоит забывать про размытый фон. Это своеобразный спасательный круг для тех, кто боится получить артефакты на заднем плане.
Коммерческая съёмка еды
Кусочек льда падает в стакан. Именно такую динамику часто грезят увидеть создатели рекламы. Буквально десятилетие назад для подобного кадра требовалась дорогая камера, но сейчас нейросети справляются с задачей за пару минут. Хороший коммерческий запрос выглядит так:
«Макросъёмка сочного бургера на чёрном фоне. Капля соуса медленно стекает по котлете сквозь поднимающийся вверх пар. Картинку венчает контрастное контровое освещение».
Разумеется, здесь главная изюминка кроется в мелких деталях. Тем более, что аппетитный внушительный вид еды напрямую зависит от бликов на поверхности. А вот пытаться заставить кого-то откусить этот бургер пока не стоит. Обе стороны медали в генерации людей с едой показывают удручающее зрелище из лишних пальцев или сливающихся зубов.
Ошибки новичков
Сбой иногда даёт даже гениальный текст. Часто начинающие креаторы пытаются впихнуть в одно видео сразу несколько действий, что неминуемо бьёт по бюджету времени. В представлении многих алгоритм способен показать долгую историю в одном кадре. Но на практике машина тяготеет к одному плавному движению в рамках сцены (длительностью в пару секунд). Поэтому сложные сюжеты лучше разбивать на короткие фрагменты. Отдельно стоит упомянуть проблему со шрифтами. Искусственный интеллект пока довольно слабо генерирует осмысленные надписи, выдавая вместо знакомых слов вычурный инопланетный алфавит. Так что надписи на вывесках лучше добавлять потом на монтаже. Безусловно, разработчики скоро решат эту проблему, но пока кошелёк станет легче только от потраченных впустую попыток сгенерировать идеальный логотип.
Анимация
Щепетильный процесс. И всё-таки увлекательный. Если отбросить реализм, можно с головой окунуться в создание мультфильмов. Здесь творят чудеса отсылки к известным стилям. Одним из самых популярных направлений выступает подражание японским студиям. Рабочий промт может звучать так:
«Двухмерная анимация маленького пушистого котёнка на подоконнике. Зверёк смотрит на дождь на фоне неонового города. Тёплый свет от настольной лампы создаёт меланхоличное настроение в стиле аниме».
Само собой, в таких видео важна атмосфера. К тому же мультяшная рисовка прощает алгоритмам многие огрехи анатомии. Ведь если у сказочного существа внезапно окажется три уха, обыватель легко спишет это на авторское видение. Внести свою лепту в создание такого ролика может каждый желающий.
Визуализация интерьеров
Тень от жалюзи ложится на дубовый паркет. Для дизайнеров новые технологии стали настоящим спасением. Как выбрать подходящий ракурс? Лучший вариант — имитация проходки по комнате. Текст запроса стоит выстроить следующим образом:
«Плавное движение камеры вперёд по светлой гостиной в скандинавском стиле. На диване лежит вязаный плед возле горящего камина. За панорамным окном виднеется зимний лес под мягким дневным светом».
Нужно отметить, что настоящий кладезь возможностей кроется в описании материалов. Самобытный деревянный стол выглядит впечатляюще, если чётко указать его фактуру. Не скупитесь на упоминание отражений. Да и заказчикам (особенно из местного бомонда) всегда нравится разглядывать игру света на глянцевых поверхностях. Перегружать сцену мелкими деталями всё же не стоит.
Достопримечательности Японии: Токио
Неон отражается в лужах. Азиатский колорит всегда привлекал создателей контента своей плотностью. Если попытаться воссоздать атмосферу вечернего мегаполиса, результаты превосходят ожидания. Хорошей отправной точкой послужит фраза:
«Кинематографичная проходка камеры по узкой улочке ночного Токио под сильным дождём. Люди прячутся под прозрачными зонтами. Яркие вывески эффектно освещают мокрый асфальт».
Дело в том, что здесь органично сочетаются сразу несколько сложных элементов. Сначала взгляд цепляется за отражения в воде, затем переходит на свечение ламп. Удивительно, но именно такие атмосферные зарисовки собирают львиную долю лайков в социальных сетях. Ведь они передают то самое чувство присутствия.
Взаимодействие объектов
Руки, вместе сложенные. Казалось бы, простая задача. Но именно здесь начинаются главные подводные камни генерации. Практически невозможно заставить одного человека передать предмет другому без искажений с первой попытки. Базовые постулаты нейросетей гласят, что тесный контакт двух сущностей вызывает путаницу в пикселях. Если вам всё-таки необходимо показать подобную сцену, хитрить придётся через крупные планы. Вместо широкого угла логичнее запросить макросъёмку женской руки, нежно гладящей детские волосы под тёплым закатным светом. Это избавляет систему от необходимости просчитывать сложную геометрию двух сплетённых тел. Ложка дёгтя заключается в нашей ограниченности по части сложной хореографии. Нет смысла переплачивать за попытки сгенерировать драку, лучше перенести акцент на эмоции.
Мир генеративного контента меняется буквально каждую неделю. То, что сегодня кажется вершиной технологий, завтра станет лишь базовой функцией смартфона. Не стоит бояться экспериментировать со словами и искать свой собственный авторский почерк. Ведь именно человек по-прежнему стоит у руля, направляя холодный машинный разум в русло настоящего творчества. Стоит лишь запастись терпением, и подходящие формулировки обязательно выстроятся в идеальную сцену. Пусть каждый новый сгенерированный кадр точно попадает в задуманную атмосферу, а сам процесс работы приносит исключительно вдохновение.