Старые семейные альбомы, хранящие тусклые отпечатки прошлого, всегда вызывали у людей щемящее чувство ностальгии. Буквально десятилетие назад оживить застывшее лицо прадедушки казалось магией из научно-фантастических фильмов, но сейчас нейросети превратили эту мечту в обыденность. В сети представлено множество сервисов, обещающих за пару кликов заставить портрет улыбаться, моргать или даже произносить слова. Качество результата, однако, сильно зависит от того, какую текстовую команду получит искусственный интеллект. Но чтобы не ошибиться, нужно грамотно составить тот самый заветный алгоритм слов.
Как работает генерация?
В представлении многих обывателей машина просто берёт картинку и чудесным образом дорисовывает кадры. На самом деле процесс не сложный, но кропотливый, требующий точных вводных. Дело в том, что алгоритм анализирует пиксели, распознаёт объекты и затем пытается предсказать, как они поведут себя в пространстве при малейшем сдвиге. Впервые подобные махинации с графикой стали доступны широкой публике примерно в две тысячи двадцатом году, когда разработчики представили первые сырые модели. Сейчас же мы имеем дело с внушительными вычислительными мощностями, способными обрабатывать сложнейшие текстуры. И всё же нейросеть нуждается в чётком руководстве. Ведь именно человек должен указать направление движения.
Подготовка исходника
Пятно от пролитого чая на старом снимке способно испортить всю магию. Начинать нужно с банальной реставрации, иначе система радостно анимирует эти дефекты, превратив их в жутковатые летающие объекты. Стоит прогнать карточку через любой доступный улучшатель качества, убрав шумы и вытянув резкость. Обязательно ли добиваться идеальной чёткости? Вовсе нет. Однако откровенно размытые силуэты, от которых так и веет наляпистостью, лучше оставить в покое. Компактное решение — обрезать лишний фон, сфокусировав внимание алгоритма исключительно на лице персонажа. Не стоит забывать и про цветокоррекцию, чтобы кожа не выглядела слишком землистой.
Портретная анимация
Едва заметное подёргивание века часто выдаёт некачественную работу программы. Чтобы избежать таких артефактов, лучше отказаться от чрезмерной динамики в самом начале. Если мы хотим получить естественный добротный результат, стоит начать с самых простых текстовых команд. Один из самых популярных видов запроса звучит довольно просто: «человек слегка кивает головой, мягко улыбается, естественное моргание глаз, реалистичное освещение». Далее следует уточнить атмосферу, добавив фразу «кинематографичный стиль, мягкий фокус на фоне». К слову, английский язык алгоритмы понимают гораздо лучше, поэтому настоящий кладезь удачных генераций кроется в англоязычных формулировках. Оптимальный промт будет выглядеть так:
«person nodding slightly, soft smile, natural eye blinking, realistic lighting, cinematic style»
Это надёжно. Потому что проверено. Временем.
Стоит ли усложнять?
Конечно, базовые движения быстро надоедают, однако излишняя фантазия часто бьёт по бюджету времени и нервам. Многие считают, что нейросети способны безупречно сгенерировать сложный танец из статичного портрета, но на самом деле мы чаще получаем пугающих монстров со сломанными шеями и лишними пальцами. Если хочется добавить изюминку, не стоит перебарщивать со скоростью. Отличный вариант — прописать взаимодействие с окружающей средой. Можно использовать команду: «ветер слегка развевает волосы, человек медленно поворачивает голову вправо, задумчивый взгляд, лучи солнца играют на лице». В переводе это звучит как «wind slightly blowing hair, person slowly turning head to the right, thoughtful look, sunbeams playing on the face». Зрелище удручающее, когда алгоритм ошибается с пропорциями челюсти. Впрочем, при удачном стечении обстоятельств результат творит чудеса.
Ретро-снимки в движении
А вот скан пожелтевшей карточки или кадр с плёнки требуют совершенно иного подхода. Здесь солирует не только лицо, но и сам исторический колоритный антураж. Чтобы не потерять этот флёр эпохи, нужно отметить сохранение зернистости в тексте. Текстовая команда, написанная скрупулёзным автором, выглядит так: «оживление старинного фото, сохранение сепии и плёночного зерна, медленный вдох, лёгкая дрожь камеры». На английском пишем:
«vintage photo animation, preserving sepia and film grain, slow breath, slight camera shake»
Тем более, что именно лёгкая нестабильность объектива придаёт кадру живость документальной хроники. Разумеется, нет смысла гнаться за идеальной плавностью в шестьдесят кадров в секунду. Ведь это напрочь убьёт всю самобытную атмосферу ушедшего века.
Пейзажи и природа
Помимо лиц, львиная доля запросов тяготеет к оживлению природных видов. Здесь обе стороны медали проявляются во всей красе: можно получить как настоящий рай, так и хаотичное месиво из пикселей. К первой группе удачных команд относится работа с водой и небом, где динамика воспринимается нашим глазом максимально естественно. Стоит использовать конструкцию: «течение реки, лёгкая рябь на воде, плывущие по небу облака, покачивание деревьев на ветру». На английском это превращается в «river flow, light ripples on the water, clouds drifting across the sky, trees swaying in the wind». Следующий важный критерий — направление движения самой камеры (виртуального оператора). Его легко задать словами «медленное панорамирование слева направо» или «slow panning from left to right». Да и самим зрителям комфортнее наблюдать за плавной сменой изысканного ракурса, а не за резкими скачками фокуса.
Вредно ли экспериментировать?
Само собой, метод проб и ошибок никто не отменял. С одной стороны, строгие рамки уберегают от визуального мусора, с другой — именно нестандартные подходы иногда приносят грандиозный успех. И всё же при создании команд, снабжённых обилием деталей, отягощённых сложными прилагательными, приправленных специфическими терминами, часто всплывут критические ошибки рендера. Не перегружайте строку лишними эпитетами. Вместо десятка синонимов слова «красивый», лучше указать температуру света — например, «тёплый вечерний свет на лице» (warm evening light on the face). Натыкаешься порой на откровенно абсурдные видео именно из-за того, что кошелёк создателя пустеет, а машина просто запуталась в противоречивых указаниях. Ну и, конечно же, не забывайте указывать негативный промт (то, чего быть не должно), вписывая туда слова «mutated, deformed, extra limbs, bad anatomy».
Финальная обработка
Полученный короткий видеоролик редко с первого раза полностью устраивает обывателя. Готовый материал, пропущенный через нейросеть, сохранённый в базовом разрешении, скачанный на диск, часто нуждается в дополнительной полировке. Стоит подтянуть контрастность в любом редакторе (буквально пару минут времени), добавить немного резкости там, где алгоритм откровенно замылил мелкие текстуры одежды. К тому же современные программы позволяют легко наложить подходящее звуковое сопровождение: шум ветра, отдалённый гул толпы или треск старой киноплёнки. Безусловно, звук вносит огромную лепту в восприятие. Ведь именно он заставляет мозг поверить в реальность происходящего на экране. Ну, а последним штрихом станет лёгкая цветокоррекция, возвращающая коже естественные оттенки.
Смело комбинируйте предложенные фразы, подстраивая их под характер конкретного изображения. Этот щепетильный творческий процесс непременно принесёт массу тёплых эмоций и порадует домочадцев, когда они увидят улыбающихся предков на экране смартфона. Главное — внимательно следить за мимикой и не скупиться на время для генерации новых дублей, если первый блин вышел комом. Перевоплощение завершено.