В сети постоянно мелькает огромное множество невероятно реалистичных изображений, сгенерированных искусственным интеллектом, и обыватель довольно часто полагает, что получить подобный шедевр можно по простому щелчку пальцев. Кажется, достаточно вбить пару незамысловатых слов, а умная машина сама додумает нужный роскошный антураж и выстроит идеальную, выверенную до миллиметра композицию. На самом деле всё обстоит совершенно иначе, ведь без грамотно составленного текстового запроса вместо шедевра на экране часто всплывут лишь несуразные цветные пятна или пугающе искажённые пропорции тел. Буквально несколько лет назад сырые алгоритмы выдавали жутковатые, сюрреалистичные абстракции, но сейчас они способны имитировать плёночную фотографию с точностью до микроскопического зерна. Но чтобы не ошибиться в процессе генерации и получить действительно стоящий результат, нужно в совершенстве освоить скрупулёзное искусство текстового конструирования.
Как работают нейросети?
Секрет успеха кроется исключительно в правильно подобранных словах. Вычислительные сети абсолютно не понимают наших человеческих чувств, зато они блестяще считывают конкретные текстовые маркеры. Сначала мощный алгоритм распознаёт базовые объекты, затем подбирает к ним визуальные ассоциации, извлечённые из огромных цифровых баз данных, обученных на миллионах классических картин. Конечно, многие обыватели искренне считают процесс создания картинки чистой магией, однако тут царит холодная и строгая математика. И всё же в этом кроется своя неповторимая изюминка. Дело в том, что каждое добавленное в строку слово имеет свой определённый вес в общей композиции. Причём львиная доля успеха напрямую зависит от правильной последовательности этих самых слов. К слову, самые продвинутые системы (вроде пресловутой Midjourney) сильно тяготеют к чётким английским терминам. Поэтому перед началом работы желательно перевести все свои мысли на язык оригинала.
Архитектура текстового запроса
Начинать работу всегда стоит с определения главного, солирующего в кадре объекта. Кто именно или что конкретно будет находиться в самом центре внимания зрителя? Ответить на этот прямой вопрос довольно просто, но дальше творческий процесс требует весьма щепетильного подхода. К первой группе обязательных параметров относится само действие или характерная поза модели. Далее следует подробно описать окружающее пространство, чтобы персонаж не висел в пустом, пугающем вакууме. Отдельно стоит упомянуть стилистику, задающую общее настроение всей сцене. Ну и, наконец, последним в этом монолитном текстовом блоке идёт скучное техническое описание желаемого кадра. Разумеется, на первый взгляд звучит это чересчур громоздко. Однако на практике опытный промт-инженер собирает такую конструкцию буквально за половину минуты. Сложный механизм подчиняется логике. А результат всегда радует глаз.
Стоит ли усложнять конструкцию?
Нужны ли бесконечные километровые тексты для получения красивой, захватывающей дух картинки? Вовсе нет. Иногда очень короткая, но меткая и хлёсткая фраза творит настоящие чудеса на экране монитора. А вот излишняя словесная наляпистость довольно часто сбивает искусственный интеллект с правильного толку. Тем более, что умная машина начинает откровенно путать цвета или приклеивать лишние конечности, когда описательных эпитетов становится слишком много. Выглядит такое зрелище крайне удручающе. Не скупитесь на точные, бьющие в цель эпитеты, но откровенную словесную «воду» лучше безжалостно отсекать на этапе черновика. Впрочем, если душа настойчиво требует эпического многогранного полотна, то стоит подготовиться к долгим перегенерациям. Платная подписка на сервисы ощутимо бьёт по бюджету, поэтому тратить попытки впустую нецелесообразно. Серьёзное вложение сил окупается лишь тогда, когда на экране появляется исконно правильная композиция. Ведь именно грамотный баланс приносит плоды.
Фотосессия в студии: настройка света
Мягкий блик на скуле, выхваченный резким контровым светом, меняет восприятие портрета просто мгновенно. Свет вообще решает добрую половину любой визуальной задачи. Поэтому хорошая, добротная генерация всегда создаётся объёмом, заданным классическим софтбоксом, подсвеченным холодными неоновыми лампами, окутанным лёгкой кинематографической дымкой. Естественно, без указания типа освещения итоговая картинка получится абсолютно плоской и невыразительной. Безусловно, можно написать просто «красивый свет», но ленивая машина выберет самый банальный, заезженный вариант из своей базы. А если попытаться уточнить конкре время суток? На раннем рассвете тени становятся очень длинными, а в так называемый золотой час все цвета приобретают тёплые медовые оттенки. Нужно отметить, что специфические профессиональные термины реальных фотографов работают здесь просто безупречно.
Детализация: лицо и мелкие нюансы
Слегка приоткрытые влажные губы, растрёпанная внезапным порывом ветра прядь волос и едва заметный прищур уставших глаз. Именно с таких, казалось бы, совершенно незначительных мелочей начинается настоящий реализм. Компьютерный мозг обожает идеализировать людей, делая их похожими на отполированных глянцевых кукол. Ложка дёгтя в этом вычурном глянце — полная и бесповоротная потеря человечности. Чтобы избежать неприятного эффекта зловещей долины, стоит добавлять в текст текстуру живой кожи, россыпь веснушек или даже мелкие мимические морщинки. К тому же, прямой и живой взгляд всегда приковывает внимание зрителя намертво. Эстетичны ли такие возрастные несовершенства? Само по себе пятнышко на коже может казаться совершенно лишним дефектом, но в общей композиции оно создаёт самобытный и крайне колоритный образ. Нельзя не упомянуть и о важности правильного ракурса.
Практика создания
Сухая теория без реальной практики всегда остаётся мертва. Поэтому логично посмотреть на конкретные, уже проверенные временем текстовые конструкции.
Один из самых популярных базовых видов генерации — это женский крупный портрет. Рабочий запрос звучит как «реалистичный портрет молодой уставшей девушки, рыжие вьющиеся волосы, зелёные глаза, мягкий солнечный свет сквозь листву деревьев, снято на объектив пятьдесят миллиметров, плёнка Кодак, высокая детализация лица». Далее следует более сложный, многоуровневый архитектурный пейзаж. Для него мы прописываем «заброшенный готический замок в густом хвойном лесу, утренний плотный туман, кинематографическое мрачное освещение, атмосфера тёмного фэнтези, разрешение восемь ка». Компактное и весьма элегантное решение для макросъёмки — это «взрыв цветной пудры на угольно-чёрном фоне, макро, высокоскоростная камера, яркие летящие неоновые брызги».
Как видим, каждый вписанный блок строго отвечает за свой личный нюанс. Правильно составленный промт — это настоящий кладезь идей.
Чего стоит избегать?
Не стоит перегружать свой рабочий текст откровенно взаимоисключающими, противоречивыми понятиями. Программа просто физически не поймёт, как грамотно совместить глубокую звёздную ночь и яркое полуденное солнце на одном холсте. Откажитесь от абстрактных, расплывчатых желаний вроде «сделай очень красиво» или «чтобы всем зрителям обязательно понравилось». Компьютерный разум напрочь лишён чувства прекрасного и опирается исключительно на прописанные теги. Кроме того, лучше полностью отказаться от использования любых отрицательных частиц в основном теле запроса. Нейросети довольно часто нагло игнорируют частицу «не» в предложениях. То есть невинный запрос «человек без очков» с огромной долей вероятности выдаст вам задумчивого интеллектуала в массивной роговой оправе. Для таких хитрых махинаций существует специальный отдельный параметр негативного промта, куда и вписывается весь визуальный мусор. Это отличный спасательный круг. Да и нервы сохраняются.
Влияние прошлых эпох
Технологии классической фотографии развивались долгими десятилетиями. Дагерротипы, впервые появившиеся в тысяча восемьсот тридцать девятом году, требовали невероятно долгой выдержки и совершенно полной, мучительной неподвижности живой модели. Сейчас мы можем достоверно сымитировать этот винтажный ретро-эффект буквально за три короткие секунды. Буквально десятилетие назад качественная цифровая ретушь требовала виртуозного, почти магического владения графическими редакторами, но сейчас автору достаточно просто вписать название старой плёночной камеры в пустую строку. Особый интерес всегда вызывает тот удивительный факт, что алгоритм доподлинно знает, как именно выглядит выцветшая бумага или специфический цветовой шум на старой плёнке Полароид, выпущенной в тысяча девятьсот семьдесят втором году. Поэтому указание конкретной антикварной камеры творит настоящие чудеса восприятия. Картинка обретает историческую душу. И хотя это всего лишь набор пикселей, выглядит всё весьма добротно.
Финальные штрихи
Каждый сгенерированный автором кадр — это всегда обе стороны одной медали. С одной стороны, мы имеем холодное техническое совершенство вычислительного кода, с другой — безграничную, бурлящую фантазию живого человека. Само собой, самые первые робкие попытки генерации могут сильно разочаровать новичка. Но визуальная насмотренность постепенно накапливается. Стоит только начать смело экспериментировать с необычными, сломанными ракурсами. Заменив стандартный скучный вид спереди на «вид снизу» или «с высоты птичьего полёта», вы мгновенно получите совершенно иную, мощную пространственную динамику. Впрочем, иногда случайная глупая опечатка в тексте выдаёт настолько грандиозный и впечатляющий результат, что местный бомонд просто диву даётся. Это напрямую связано с тем, что генеративный процесс всегда оставляет крошечное окно для контролируемого хаоса. В этом и кроются те самые коварные, но интересные подводные камни.
Поэтому постоянно пробуйте нестандартные вкусовые сочетания, активно ищите свежие визуальные референсы и никогда не бойтесь совершать досадные ошибки в написании. Каждое новое вписанное слово стремительно приближает вас к пониманию того, как именно мыслит бездушная машина, и делает ваши личные работы гораздо более выразительными. Когда ваше цифровое чадо наконец-то обретёт идеальные, задуманные формы, все потраченные усилия покажутся сущим пустяком. Удачи в создании потрясающих реалистичных фотографий, генерация которых обязательно станет отличным решением для творческого роста!