Множество невероятно реалистичных сгенерированных роликов представлено сегодня в глобальной сети, заставляя сомневаться обывателя в подлинности происходящего на экране. Буквально десятилетие назад подобная визуальная магия казалась уделом голливудских студий с внушительными многомиллионными бюджетами, но сейчас создавать настоящие шедевры пробует каждый желающий. Дело в том, что доступность технологий сыграла злую шутку с рынком, породив гигантское количество пластикового и неестественного контента. Ведь львиная доля успеха кроется вовсе не в мощностях самой программы, а в грамотно составленном текстовом запросе. Поэтому перед началом работы желательно разложить по полочкам базовые принципы общения с машиной.
Базовая структура
Камера медленно наезжает на изрезанное морщинами лицо старика, освещённое тусклой лампой накаливания. Именно с таких мельчайших, казалось бы, деталей стартует обычно скрупулёзный процесс написания запроса. С чего начинается выбор? С чёткого определения главного субъекта в кадре. Сначала мы задаём сам объект, следом прописываем его физические действия, дополняем сцену окружающим фоном и в финале закрепляем всё это стилистикой. Если попытаться запихнуть все идеи в одно длинное предложение, нейросеть запутается неминуемо. Наляпистость финальных кадров возникает довольно часто именно из-за хаоса в подборе слов. Ток, возникший при сильной перегрузке, автомат отсекает мгновенно — так же и алгоритм просто отбросит лишние эпитеты, оставив творца с разочаровывающим мылом на экране.
Как выбрать стиль?
Сложно ли укротить искусственный интеллект? С одной стороны, процесс кажется примитивным текстовым набором, с другой — требует изрядной доли терпения. Не стоит забывать про технические параметры оптики, которые творят чудеса при осознанном использовании. Обычная банальная фраза вроде «сними красиво» здесь не работает абсолютно. К слову, кинематографисты прошлого века, выставляя тяжёлый свет часами на съёмочной площадке, сильно удивились бы нынешним цифровым возможностям. Сначала в текстовую строку забивается тип объектива, затем следует фокусное расстояние (например, пятьдесят миллиметров), ну и, наконец, прописывается характер освещения. Это тяжёлый, но невероятно эффективный способ добиться киношного реализма. К тому же, правильный свет скроет мелкие огрехи генерации. Ложка дёгтя тут всё-таки присутствует, так как алгоритмы иногда игнорируют сложные перекрёстные тени.
Портретная съёмка в нейросети
Наряд для избранных. Именно так можно охарактеризовать детализированный костюм персонажа, который вы планируете оживить на экране. Довольно часто пользователи грезят о гиперреалистичных лицах, напрочь забывая о микромимике. Попробуйте скормить системе такой вариант:
молодая веснушчатая девушка смотрит прямо в объектив, лёгкий ветер развевает каштановые волосы, мягкий закатный свет падает сбоку, съёмка на винтажную плёнку тридцать пять миллиметров, высокая детализация пор кожи.
Выглядит впечатляюще на выходе. Но есть и минусы в таких портретах. Иногда глаза получаются абсолютно стеклянными. Чтобы избежать этого пугающего эффекта, стоит добавлять уточнения вроде «живой взгляд» или «естественное моргание». Конечно, идеала с первой попытки не выйдет, однако результат всё-таки порадует. Да и самим зрителям приятнее смотреть на живое, дышащее лицо.
Достопримечательности Японии: Храмы
Древняя архитектура требует совершенно особого подхода при генерации. Буддийские храмы строились долгими веками, а их деревянные каркасы собирались хитроумными мастерами без единого гвоздя (в период Эдо). Чтобы воссоздать подобный колоритный восточный антураж в видео, понадобится крайне щепетильный подход к описанию геометрии. Рабочий надёжный промт выглядит так:
традиционный японский дом на фоне цветущей весенней сакуры, розовые лепестки медленно падают на каменную дорожку, тёплый весенний день, мягкий солнечный свет пробивается сквозь толстые ветви, панорамирование камеры слева направо.
Изюминка этого запроса кроется именно в динамичных глаголах. Лепестки падают, а свет пробивается сквозь листву. Именно они создают ту самую неуловимую жизнь. Безусловно, машина может ошибиться с формой изогнутой крыши. Однако общая умиротворяющая атмосфера передаётся довольно точно.
Вредно ли завышать ожидания?
Разочарование бьёт по бюджету свободного времени сильнее всего остального. В представлении многих обывателей нейросети всё делают сами, но на самом деле они выступают лишь послушным инструментом. Стоит ли экономить слова при написании? Вовсе нет. Чем электронные сигареты лучше классических табачных изделий? Ничем особенным, это просто другая форма старой привычки, как и использование ИИ вместо реальной камеры — это просто иной способ визуализации, требующий своих специфических навыков. Процесс не сложный, но весьма кропотливый. Подводные камни обязательно всплывут на этапе финального рендеринга. То рука персонажа мутирует в нечто жуткое, то задний фон поплывёт волнами. Впрочем, к этому нужно относиться философски. Не скупитесь на детальные уточнения, но и не ждите кинематографичных шедевров по одному щелчку пальцев.
Санитарный контроль
Жёстко зашитые запрещённые слова система блокирует моментально. Алгоритм, наделённый строгими фильтрами, снабжённый огромными базами стоп-слов, обученный на исключительно безопасном контенте, просто не пропустит насилие или откровенность. Поэтому стоит очень тщательно проверять свой написанный текст. Слово «кровь» лучше заменить на «густая красная жидкость», если вы делаете мрачный напряжённый триллер. Махинации с искусной подменой понятий спасают забуксовавшие проекты довольно часто. Это же золотое правило касается авторских прав на известные франшизы. Вместо прямого указания «в стиле Тарантино» напишите лучше:
резкие диалоги, контрастный свет, жёлтые оттенки.
Это надёжно. Потому что проверено. Временем и тысячами попыток. Ну, а если обойти упрямые фильтры не удаётся никак, придётся в корне менять изначальную концепцию.
Стиль гранж в интерьере
Ветхие стены, обнажающие старую кирпичную кладку, всегда приковывают внимание ценителей нестандартного дизайна. Интерьеры генерировать проще, так как в них отсутствует сложная человеческая анатомия. Рабочий запрос для облёта комнаты:
просторная гостиная в стиле гранж, потрескавшаяся кожаная мебель, огромные окна в пол, индустриальные светильники свисают с бетонного потолка, пылинки кружатся в лучах холодного света, медленное движение камеры вперёд.
Оседает на таких видео взгляд очень надолго. Естественно, текстуры бетона и потёртой кожи алгоритмы отрисовывают с пугающей реалистичностью. Важно не перегружать помещение мелким мусором. Нет смысла переплачивать за генерацию десятков версий, если можно сразу уточнить материалы отделки.
Стоит ли усложнять?
Перегруженный эпитетами текст всегда выступает врагом предсказуемого результата. Когда в одном коротком запросе солирует и неоновый киберпанк-город, и проливной дождь, и летящий механический дракон, и плачущий детектив, нейросеть выдаёт абсолютно серую невнятную кашу. Обыватель тяготеет к избыточности практически всегда. А нужно действовать гораздо тоньше. Выручит короткий точный промт. Например:
макросъёмка прозрачной капли дождя на зелёном листе, отражение городского трафика внутри этой маленькой капли, экстремально замедленная съёмка.
Компактное изящное решение даёт шикарный результат. Исконно правило опытных фотографов гласит, что меньше деталей почти всегда значит лучше. Постулаты классического визуального искусства работают безотказно и здесь. Не стоит гнаться за бессмысленным количеством прилагательных.
Творчество в суровую цифровую эпоху трансформируется очень быстро, требуя от нас адаптивности и новых навыков общения с кодом. Главное — не бояться смело экспериментировать с текстовыми описаниями и искать свой собственный неповторимый авторский почерк. Ведь даже холодный математический алгоритм можно заставить передать глубокую человеческую эмоцию, если подобрать верные слова. Больше практикуйтесь каждый день, анализируйте внимательно удачные генерации более опытных коллег, собирайте бережно собственную базу рабочих формулировок. Удачи в освоении этих безграничных визуальных миров, пусть каждый сгенерированный кадр запомнится надолго.