Промты для stable diffusion (с примерами готовых промтов)

В сети представлено множество удивительных изображений, созданных искусственным интеллектом. Глядя на них, обыватель часто думает, что для такого творчества нужен мощный компьютер и диплом программиста. Кажется, будто это какая-то магия, доступная лишь избранным. На самом же деле львиная доля успеха скрывается не в железе, а в правильно составленном текстовом запросе, или, как его принято называть, промте. Это тот самый ключ, который открывает дверь в мир безграничной фантазии нейросети. Но чтобы волшебство сработало, нужно освоить язык, на котором говорят эти удивительные современные алгоритмы.

Что такое промт и как он устроен?

По своей сути, промт – это техническое задание для нейросети. Подробная инструкция, описывающая, что именно вы хотите увидеть на финальном изображении. Многие считают, что достаточно написать «красивая девушка», и Stable Diffusion тут же выдаст шедевр. Увы, реальность далека от этих грёз. Результат, скорее всего, будет довольно посредственным и полным артефактов. Дело в том, что нейросеть не обладает человеческим вкусом или чувством прекрасного. Она лишь скрупулёзно следует вашим указаниям, а краткость в данном случае – враг качества.

Хороший, добротный промт состоит из нескольких логических блоков. Во-первых, это основной объект или субъект сцены – человек, животное, здание или пейзаж. Во-вторых, его стоит дополнить уточняющими деталями: описанием внешности, одежды, окружения, действий. Далее следует стилистика, которая определяет общий антураж и настроение картинки. Это может быть указание на конкретного художника, жанр живописи, тип фотографии или даже игровую вселенную. Ну и, наконец, в дело вступают технические параметры, отвечающие за качество, детализацию и освещение. А ведь есть ещё и негативный промт – список того, чего на изображении быть не должно. Этот инструмент – настоящий спасательный круг для отсеивания мусора и артефактов.

Базовая структура: от простого к сложному

Задача не из лёгких. Но если разложить всё по полочкам, структура становится понятной. Начинать стоит всегда с главного. Кто или что солирует в вашей композиции? «Средневековый рыцарь в сияющих доспехах». Уже неплохо, но слишком общо. Добавим конкретики, описав его окружение. «Средневековый рыцарь в сияющих доспехах стоит на вершине скалы, глядя на замок в долине». Картина становится живее. Теперь самое время окунуться в стилизацию, ведь именно она вносит ту самую изюминку.

Что насчет стиля? Здесь кладезь вариантов. Можно указать «в стиле картин Ивана Айвазовского», если нужна маринистическая драма. Или «концепт-арт в духе игры Cyberpunk 2077» для футуристического антуража. Не стоит забывать и о кино. Фразы вроде «cinematic lighting» (кинематографичное освещение) или «shot on Kodak Portra 400» (снято на плёнку Kodak Portra 400) творят настоящие чудеса, приближая генерацию к кадру из фильма. И вот наш рыцарь уже не просто стоит на скале, а предстаёт в «эпической фэнтези-иллюстрации в стиле работ Грега Рутковски». Чувствуете разницу? Это же совершенно другой уровень.

Ну и, конечно же, технические «усилители». Слова вроде «highly detailed», «hyperrealistic», «8k», «trending on Artstation» заставляют нейросеть уделить особое внимание проработке мелких деталей. Хотя с ними не стоит перебарщивать, чтобы не получить вычурную, наляпистую картинку. Обязательно ли всё это указывать? Вовсе нет. Но чем детальнее ваш запрос, тем предсказуемее и качественнее будет результат. Эксперимент – вот главный двигатель прогресса в этом деле.

Как создать фотореалистичное изображение?

Предположим, наша цель – сгенерировать портрет, который невозможно отличить от настоящей фотографии. Задача довольно сложная, но выполнимая. Секрет кроется в имитации работы реального фотографа. Вместо упоминания художников мы будем говорить на языке объективов, диафрагм и настроек камеры. Это тот самый нюанс, который обманывает алгоритм, заставляя его подражать фототехнике.

Начать нужно с основы: «photorealistic portrait of a young woman with long red hair and freckles». Уже есть объект и его черты. Теперь добавляем свет, ведь он – душа любой фотографии. «soft natural light, golden hour» (мягкий естественный свет, золотой час). Далее следует самый важный шаг – технические фото-параметры. Укажем конкретную камеру и объектив: «shot on Canon EOS R5, 85mm f/1.8 lens». Это сразу задаёт нужную глубину резкости и характер боке (размытия фона). Для максимального качества добавляем «hyperdetailed, intricate details, sharp focus». В итоге полный промт может выглядеть так:

photorealistic portrait of a young woman with long red hair and freckles, soft natural light, golden hour, shot on Canon EOS R5, 85mm f/1.8 lens, hyperdetailed, intricate details, sharp focus, 8k

А что с негативным промтом? Это не менее важная часть. Сюда мы вписываем всё, что может испортить кадр. Типичный набор для портретов: «ugly, deformed, disfigured, poorly drawn hands, extra limbs, blurry, grainy, watermark, signature». Особое внимание стоит уделить рукам – это исконная проблема всех генеративных моделей. Указав их в негативном запросе, мы повышаем шансы на получение анатомически корректного результата.

Фэнтези и концепт-арт: когда реальность не нужна

Совершенно иные правила действуют в мире фантастики и цифровой живописи. Здесь нет нужды притворяться фотографом. Наоборот, стоит смело ссылаться на известных художников, работающих в жанре фэнтези, и использовать специфическую лексику. Имена вроде Greg Rutkowski, Artgerm, WLOP, Todd Lockwood для нейросети – это маркеры определённого стиля, который она будет старательно копировать.

Представим себе грандиозную сцену: дракон на горе. Сухой запрос «dragon on the mountain» даст нам, скорее всего, детскую иллюстрацию. Превратим её в эпическое полотно. Начнём с атмосферы: «epic fantasy concept art of a majestic ancient dragon perched on a snow-covered mountain peak». Добавим драмы через окружение: «stormy sky, lightning, dramatic lighting». Теперь призовём «духов» великих художников: «style of Greg Rutkowski and Todd Lockwood». И, наконец, отполируем всё техническими деталями для цифровой живописи: «highly detailed, cinematic, artstation». Промт приведёт к совершенно иному, куда более впечатляющему результату:

epic fantasy concept art of a majestic ancient dragon perched on a snow-covered mountain peak, stormy sky, lightning, dramatic lighting, style of Greg Rutkowski and Todd Lockwood, highly detailed, cinematic, artstation

Подводные камни и частые ошибки

Путь генератора полон не только открытий, но и разочарований. Одна из самых распространённых ошибок – перегрузка промта. Не стоит вписывать в один запрос двадцать противоречащих друг другу стилей и объектов. Нейросеть просто запутается, и на выходе получится «каша». Лучше придерживаться одной-двух ключевых стилистических идей. К тому же, есть вещи, с которыми Stable Diffusion справляется откровенно плохо. Например, надписи. Попытка сгенерировать постер с конкретным текстом почти всегда обречена на провал – вы получите лишь нечитаемые каракули.

Ещё один важный момент – вес слов. То, что стоит в начале промта, имеет для нейросети больший приоритет. Поэтому всегда начинайте с самого главного объекта. Если вы напишете «лес, поле, река, а в центре маленький домик», то, скорее всего, получите просто пейзаж без домика. Правильнее будет: «маленький домик в центре, окружённый лесом, полем и рекой». Эта простая махинация часто меняет результат кардинально. И не бойтесь использовать скобки для усиления значимости слова (например, `(masterpiece)`) или квадратные для её ослабления (`[bad art]`).

Главное – не бояться экспериментировать, пробовать самые смелые сочетания и получать удовольствие от процесса. Ведь каждый удачный кадр, рождённый из хаоса слов, – это ваша маленькая творческая победа. Удачи в ваших цифровых мирах.