В сети полно впечатляющих изображений, созданных искусственным интеллектом. Глядя на фотореалистичные портреты, фэнтезийные пейзажи и концепт-арты, невольно думаешь, что где-то там сидит цифровой Леонардо да Винчи, который по одному щелчку мыши творит чудеса. Отчасти это правда, но львиная доля успеха зависит не от самой нейросети, а от того, кто даёт ей задание. Ведь машина, даже самая умная, не умеет читать мысли, она лишь скрупулёзно выполняет инструкцию. Но чтобы не разочароваться в результате и не получить вместо сурового викинга карикатурного гнома, нужно освоить искусство общения с машиной на её языке. А начать стоит с понимания, как правильно составлять те самые промты.
Что такое промт и почему он важен?
Многие обыватели ошибочно полагают, что промт (от англ. prompt – побуждение, подсказка) – это просто пара слов, описывающих желаемый результат. Например, «красивая девушка» или «старый замок». На самом деле, хороший промт – это подробное, многогранное техническое задание для нейросети. Это ваш холст, палитра и кисти, завёрнутые в текстовую формулу. Чем точнее и детальнее вы опишете, что хотите увидеть, тем выше вероятность получить изображение, от которого захватит дух. В противном случае Chat GPT или любая другая модель будет додумывать детали за вас, опираясь на свои усреднённые «представления о прекрасном». А они, нужно отметить, довольно часто тяготеют к шаблонам и клише.
Основы основ: из чего состоит запрос?
Задача не из лёгких. Но если разложить всё по полочкам, структура хорошего запроса становится понятной. Во-первых, это сам объект. Не просто «мужчина», а «пожилой скандинавский рыбак с седой бородой, заплетённой в косы, и глубокими морщинами вокруг усталых голубых глаз». Чувствуете разницу? Стоит добавить детали одежды, эмоцию на лице, особые приметы. Именно эти нюансы вдыхают в пиксели жизнь. Не стоит скупиться на прилагательные и уточнения.
Следующий важный пласт – стилистика. Хотите ли вы получить изображение, неотличимое от фотографии, или, может, картину, написанную маслом в духе импрессионистов? Нейросети обучены на гигантском объёме данных, включающем в себя всю историю мирового искусства. Поэтому вы можете смело указывать конкретные стили, например, «киберпанк», «стимпанк», «ар-нуво», «аниме в стилистике студии Ghibli». Кроме того, можно ссылаться на работы известных художников. Запрос, дополненный фразой «в стиле Грега Рутковски», даст совершенно иной результат, нежели тот же запрос, но с припиской «в стиле Ивана Айвазовского». Это мощнейший инструмент для контроля антуража.
Далее стоит задуматься о композиции и ракурсе. Как должен быть расположен объект в кадре? Это будет портрет крупным планом (close-up portrait), поясной портрет (medium shot) или изображение в полный рост (full body)? Возможно, вы хотите видеть взгляд сбоку (profile view) или драматический ракурс снизу вверх (low-angle shot). Эти, казалось бы, технические детали кардинально меняют восприятие. С их помощью можно передать характер персонажа: ракурс снизу придаёт величия, а вид сверху, наоборот, может показать уязвимость.
Нельзя не упомянуть и освещение. Свет – это изюминка, которая способна преобразить даже самый простой сюжет. Одно дело – нейтральное студийное освещение (studio light), и совсем другое – драматический боковой свет, подчёркивающий рельеф лица (dramatic side lighting), или мягкий свет заходящего солнца (golden hour). Можно указать и более специфические вещи: «неоновое освещение», «свет от костра», «лунный свет». Этот параметр напрямую влияет на атмосферу и настроение будущего изображения.
Ну и, конечно же, фон. Персонаж не должен висеть в пустоте, если только это не является вашей творческой задумкой. Окружение помогает рассказать историю. Рыбак может стоять на фоне штормового моря и скал, учёный – в заставленной колбами лаборатории, а эльфийская принцесса – в мистическом лесу. Фон, как и всё остальное, стоит описывать подробно. Не «лес», а «древний туманный лес с гигантскими деревьями, поросшими мхом, сквозь кроны которых пробиваются лучи солнца».
Как детализация творит чудеса?
Давайте сравним два подхода. Обыватель, скорее всего, напишет что-то вроде: «портрет киберпанк-девушки». Результат будет. Вероятно, даже неплохой. Но предсказуемый. А теперь посмотрим, как может выглядеть проработанный, добротный запрос: «Портрет девушки-хакера в стиле киберпанк, крупный план, на её лице сложные биомеханические импланты и татуировки в виде микросхем, короткие розовые волосы, она смотрит прямо в камеру с лёгкой ухмылкой. На фоне видны неоновые вывески ночного мегаполиса, блики отражаются в её глазах. Атмосферное кинематографическое освещение, высокая детализация, фотореализм». В этом случае нейросеть получает кладезь информации, каждый элемент которой направляет её «творческий поиск» в нужное русло. Шансы на создание настоящего шедевра возрастают в разы.
Готовые промты для вдохновения
Чтобы теория не оставалась сухой, вот несколько конкретных примеров, от которых можно оттолкнуться. Разумеется, это не догма, а лишь вектор для ваших собственных махинаций.
Попробуйте, например, такой вариант для создания реалистичного исторического образа: «Фотореалистичный портрет молодой египетской царицы времён Нового царства, профиль, замысловатый головной убор с золотом и лазуритом, выразительный макияж глаз. Мягкий свет факелов освещает её лицо в полумраке храма. На заднем плане видны стены, покрытые иероглифами. Высокая детализация кожи и тканей, кинематографический стиль». Такой промт задаёт не только внешность, но и целую эпоху, и атмосферу.
А вот пример для любителей фэнтези, где солирует стилистика: «Портрет старого гнома-кузнеца, написанный маслом на холсте, в стиле картин Рембрандта. Густая рыжая борода, добрые глаза, на лице следы сажи. Он держит в руках массивный молот. Драматическое освещение от горна, глубокие тени. На фоне – детали кузницы, разложенные инструменты, искры от огня. Тёплая цветовая палитра». Здесь мы прямо указываем на художественный стиль и конкретного мастера, что даёт нейросети чёткие ориентиры.
Ну, а если хочется чего-то более современного и необычного, можно поэкспериментировать с абстракцией: «Двойная экспозиция: силуэт женского лица и туманный сосновый лес внутри него. Монохромная цветовая гамма, преобладание серых и синих оттенков. Минималистичный стиль, акцент на текстуре и настроении. Сюрреализм, концептуальное искусство». Это уже более сложный запрос, который заставляет ИИ комбинировать образы и работать на уровне метафор.
Стоит ли бояться «негативных» промтов?
Отдельно стоит упомянуть такой инструмент, как негативные промты. Что это такое? По сути, это список стоп-слов, инструкция для нейросети о том, чего на изображении быть НЕ должно. Это спасательный круг в ситуациях, когда модель упорно генерирует какие-то артефакты. Довольно часто в негативные промты добавляют такие понятия, как «уродливый», «деформированные пальцы», «плохая анатомия», «размытость», «низкое качество», «мультяшный стиль» (если вам нужен реализм). Использование этого инструмента позволяет отсечь нежелательные результаты и повысить общее качество генерации. Не стоит им пренебрегать.
Создание портретов с помощью нейросетей – это не просто нажатие кнопки «сгенерировать». Это полноценный творческий процесс, диалог человека и машины, где вы выступаете в роли режиссёра. Главное – не бояться пробовать, экспериментировать и сочетать, казалось бы, несочетаемые вещи. Именно так и рождаются настоящие цифровые шедевры. Удачи в ваших творческих экспериментах.