В сети представлено множество нейросетей, способных генерировать изображения по текстовому описанию, и, казалось бы, стать цифровым художником сегодня может каждый. Midjourney, Stable Diffusion, Kandinsky – инструменты, которые из нескольких слов творят настоящие чудеса. Однако довольно часто результат получается совсем не таким, как рисовалось в воображении: персонаж смотрит не туда, композиция разваливается, а общая атмосфера напоминает скорее кошмар, чем произведение искусства. Чтобы нейросеть поняла вас с полуслова и выдала добротный результат, нужен точный и образный запрос, или, как его принято называть, промт. А начать стоит с разбора анатомии этого самого идеального промта.
Что такое промт и почему он так важен?
Задача не из лёгких. В представлении многих обывателей промт – это простое описание картинки. «Кот в шляпе» или «закат над морем». С одной стороны, да, это тоже промты. Но с другой, они сродни заданию для профессионального фотографа в духе «сделайте красиво». Результат будет, но абсолютно непредсказуемый. На самом деле, хороший промт – это скрупулёзно составленное техническое задание. В нём вы не просто описываете объект, но и выступаете в роли режиссёра, оператора, художника по свету и даже костюмера. Чем больше деталей вы предоставите искусственному интеллекту, тем меньше ему придётся додумывать. А ведь именно «додумывание» нейросети и приводит к появлению шестипалых рук, кривых лиц и прочих артефактов. Поэтому не стоит пренебрегать деталями, ведь именно в них кроется ключ к успеху.
Анатомия запроса: базовые компоненты
Чтобы разложить всё по полочкам, давайте представим, что мы готовимся к настоящей фотосессии для нашего звёздного персонажа – кота в костюме банана, или «наны бананы». Что нам нужно учесть? Во-первых, сам объект. Нужно максимально чётко указать, кто или что находится в центре кадра. В нашем случае это «Nana banana cat» – устойчивое название мема, которое многие модели ИИ уже знают. Если персонаж менее известен, его внешность стоит описать подробнее.
Во-вторых, действие и поза. Что делает наш герой? Просто сидит? Или, может, он грустно смотрит в окно, по которому стекают капли дождя? Или же он героически летит сквозь космос? Это же правило касается и эмоций. Выражение мордочки может быть удивлённым, радостным, сонным или даже высокомерным. Каждый такой нюанс кардинально меняет восприятие всей картины. Ну и, конечно же, не стоит забывать про взаимодействие с окружением, если оно предполагается.
Далее следует окружение. Фон, или бэкграунд, задаёт антураж и настроение. Наш нана банан может сидеть на залитой солнцем кухне, в тёмном неоновом переулке в стиле киберпанк или на вершине горы Фудзияма. Детализация локации приковывает внимание и делает изображение глубоким. Не скупитесь на описание: «загромождённый рабочий стол художника», «минималистичная гостиная в скандинавском стиле», «таинственный лес, окутанный туманом».
Ну и, наконец, технические параметры, которые отвечают за визуальный стиль. Это, пожалуй, самый обширный и важный блок. Здесь мы указываем на стилистику (фотография, картина маслом, аниме, 3D-рендер), освещение (кинематографичное, мягкий студийный свет, контровой свет на закате), используемую камеру и объектив, цветовую палитру и другие «операторские» детали. Именно эти махинации превращают плоскую идею в объёмное, живое полотно.
Как добиться фотореализма?
Особый интерес у большинства пользователей вызывает создание фотореалистичных изображений. Задача сложная, но вполне выполнимая. С чего начинается работа? С определения ключевых слов. Волшебные фразы вроде «photorealistic», «hyperrealistic», «hyperdetailed», «8k», «UHD» прямо говорят нейросети, к какому уровню детализации мы стремимся. Они заставляют алгоритм прорисовывать мельчайшие текстуры: шерстинки, поры на коже, блики в глазах.
Кстати, огромную лепту в реализм вносит имитация настоящей фототехники. Не стесняйтесь указывать в промте конкретные модели камер и объективов. Например, фраза «shot on Canon EOS R5, 50mm f/1.8 lens» подскажет ИИ, что вы хотите получить портрет с характерным для этого объектива размытием фона (боке) и естественной перспективой. Для пейзажей или динамичных сцен подойдёт что-то вроде «wide-angle lens» (широкоугольный объектив), а для съёмки удалённых объектов – «telephoto lens».
Освещение – ещё один спасательный круг. Вместо банального «daylight» стоит использовать более образные описания. «Golden hour» подарит тёплый, мягкий свет заходящего солнца, который творит чудеса с портретами. «Soft studio lighting» создаст ровное, без резких теней, освещение, идеальное для предметной съёмки. А вот «cinematic lighting» или «volumetric light» добавят драматизма и объёма, прорисовывая лучи света в пыльном воздухе или тумане.
Готовые промты: от простого к сложному
Теория – это хорошо, но без практики она мертва. Давайте окунёмся в создание конкретных запросов для нашего наны бананы, двигаясь от простого к сложному. Это поможет наглядно увидеть, как добавление деталей меняет конечный результат.
Начнём с базового портрета. Задача: получить качественный, детализированный портрет нашего персонажа. Промт может выглядеть так:
Nana banana cat, close-up portrait, wearing a tiny yellow hat, soft natural lighting, looking at the camera with a sad expression, photorealistic, high detail, bokeh background --ar 3:4
Здесь мы чётко указали объект, его эмоцию, добавили изюминку в виде шляпки, задали мягкий свет и размытый фон, а также уточнили пропорции кадра (вертикальный портрет).
Теперь усложним сцену, добавив динамики. Допустим, мы хотим запечатлеть кота в движении. Запрос трансформируется:
Nana banana cat joyfully jumping through a field of daisies, action shot, motion blur, sunny day, cinematic, vibrant colors, wide angle shot, captured with a Sony A7III, hyper-realistic --ar 16:9
В этом промте появляются новые команды: «action shot» и «motion blur» отвечают за передачу движения, «vibrant colors» делают картинку сочной, а широкоугольный объектив позволяет захватить больше пространства.
А что насчёт тематической фотосессии? Отправим нашего героя в космос!
Nana banana cat as a space explorer, wearing a retro-futuristic silver helmet (with ear holes), looking out of a spaceship window at a swirling nebula, cosmic lighting reflecting on its fur, nostalgic 1970s sci-fi movie style, detailed spaceship interior, shot on film, anamorphic lens flare --ar 21:9
Здесь мы уже играем со стилем («1970s sci-fi movie style»), добавляем сложные детали вроде анаморфных бликов и эффекта плёнки. Такой добротный запрос с высокой вероятностью даст впечатляющий результат.
Ну и, конечно же, юмор. Бытовые зарисовки всегда выглядят забавно.
Nana banana cat caught stealing a sausage from the kitchen counter, comical guilty expression, messy kitchen background with flour on the floor, candid shot, warm indoor lighting, slightly grainy photo, shot from a low angle --ar 4:5
Здесь ставка сделана на эмоцию («guilty expression»), беспорядок на фоне и эффект «случайного кадра» («candid shot»), снятого с низкой точки.
Стоит ли бояться экспериментов?
Обязательно ли строго следовать формулам? Вовсе нет. Генерация изображений – это кладезь возможностей для творчества. Не стоит бояться смешивать, казалось бы, несовместимые стили. Хотите увидеть нану банану в стилистике картин Ван Гога, но в киберпанк-антураже? Пожалуйста! Кроме того, существует такой мощный инструмент, как негативные промты (обычно добавляются с помощью параметра --no). С их помощью можно указать, чего на картинке быть не должно. Например, --no text, watermark, ugly, deformed поможет избавиться от текстовых артефактов, уродливых деталей и водяных знаков. Процесс не сложный, но кропотливый.
Главное – не бояться пробовать, смешивать и даже ошибаться, ведь именно так рождаются настоящие цифровые шедевры. Удачи в ваших творческих махинациях.