Многие грезят о том, чтобы одним щелчком пальцев создавать впечатляющие картины, не имея при этом навыков художника. Буквально десятилетие назад это казалось фантастикой, но сейчас, с появлением нейросетей вроде «Шедеврума», такая возможность есть практически у каждого. Достаточно лишь написать текстом, что вы хотите увидеть, и искусственный интеллект воплотит это в жизнь. Однако львиная доля новичков натыкается на одну и ту же проблему: вместо эпического полотна на выходе получается странная, а порой и откровенно удручающая абстракция. Но чтобы нейросеть вас поняла и выдала нечто вразумительное, а не наляпистую мешанину, нужно освоить искусство составления промтов.
Что такое промт и почему он так важен?
В представлении многих обывателей общение с нейросетью – это магия. Загадал желание, и оно сбылось. На самом же деле всё куда прозаичнее. Промт — это, по сути, техническое задание, которое вы даёте алгоритму. И чем точнее, детальнее и понятнее это ТЗ, тем выше шанс получить на выходе именно то, что вы задумали. Не стоит забывать, что искусственный интеллект не умеет читать мысли или угадывать ваш замысел по одному слову. Он анализирует последовательность слов, ищет в них знакомые образы, стили, объекты и пытается собрать из этого пазла целостную картину. Ведь это же просто машина, хоть и довольно сообразительная. Поэтому запрос «красивая картинка» почти наверняка приведёт к провалу. А вот скрупулёзно составленный промт творит настоящие чудеса.
Структура идеального запроса
Задача не из лёгких. Но если разложить её по полочкам, всё становится гораздо проще. Грамотный и подробный промт обычно состоит из нескольких смысловых блоков, которые можно комбинировать и менять местами. Во-первых, это главный объект или сцена. Стоит максимально конкретно описать, что или кто должен солировать на изображении. Не просто «человек», а «старый седой волшебник в синей мантии со звёздами». Не «город», а «узкая улочка средневекового европейского города на рассвете». Это основа, скелет вашего будущего шедевра.
Далее следует детализация. На этом этапе стоит добавить уточняющие прилагательные и описания, которые придадут сцене живости и антуража. К волшебнику можно добавить «с длинной бородой», «держит в руке хрустальный шар, в котором светится галактика». На улочку можно «поставить» несколько торговых лавок, «добавить» туман, стелющийся по брусчатке, и «зажечь» одинокий фонарь. Чем больше таких нюансов, тем богаче и интереснее будет итоговое изображение. Главное – не переборщить и не впасть в противоречия.
Отдельно стоит упомянуть стилистику. Это, пожалуй, самая творческая часть работы. Нейросеть обучена на миллионах изображений, и она «знает» тысячи стилей. Вы можете захотеть получить «фотографию», «картину маслом», «акварельный рисунок», «гравюру» или «постер в стиле пин-ап». Кроме того, можно указать стиль конкретного художника, например, «в стиле Ван Гога» или «как у Айвазовского». Это мощнейший инструмент, который кардинально меняет восприятие одной и той же сцены.
Ну и, наконец, технические параметры. Это уже высший пилотаж, но именно он отличает профессионала от новичка. Сюда относятся указания на освещение («кинематографичный свет», «мягкий утренний свет», «неоновое освещение»), ракурс («вид с высоты птичьего полёта», «крупный план», «снято на широкоугольный объектив»), а также команды для повышения качества («высокая детализация», «4K», «гиперреализм»). Такие команды заставляют нейросеть более щепетильно прорабатывать мелкие детали.
Какие стили можно указать?
Выбор огромен. Один из самых востребованных, разумеется, фотореализм. Указания вроде «реалистичное фото», «снято на Canon EOS 5D», «высокое разрешение» подталкивают алгоритм к созданию картинки, неотличимой от настоящей фотографии. Это отлично подходит для портретов, пейзажей и предметной съёмки. Совершенно иную атмосферу творит киберпанк, наполняя изображение неоновыми огнями, футуристическими зданиями и имплантами. Достаточно добавить в запрос «киберпанк», «неон», «будущее», и привычный мир преобразится.
А вот любители японской анимации могут смело добавлять в запрос «аниме-стиль», «как у Хаяо Миядзаки» или «студия Ghibli». Нейросеть прекрасно имитирует эту характерную рисовку, создавая очень колоритные и атмосферные арты. Не стоит забывать и о классике. Запросы «картина маслом», «импрессионизм», «барокко» или «советский плакат» перенесут ваш сюжет в совершенно другую эпоху и эстетику. К слову, очень интересные результаты получаются при смешении стилей, например, «портрет космонавта в стиле барокко». Звучит неоднозначно, но результат может быть грандиозным.
Готовые промты: от простого к сложному
Чтобы лучше понять механику, давайте посмотрим на конкретные примеры. С чего начинается выбор? С простого. Допустим, мы хотим увидеть кота. Самый базовый запрос: «Рыжий кот в очках читает книгу». Результат будет довольно предсказуемым, но добротным. Нейросеть сгенерирует мультяшного или реалистичного кота, который занят чтением. Просто. Понятно. Но без изюминки.
Теперь усложним задачу, добавив деталей и указав стиль. Например:
Фотография рыжего мейн-куна в круглых очках в тонкой золотой оправе, он важно сидит в старом кожаном кресле у камина, читает толстую книгу в потрёпанном переплёте, уютная домашняя библиотека, мягкий тёплый свет от огня, высокая детализация, гиперреализм.
Чувствуете разницу? Здесь мы не просто задали объект, а описали породу кота, форму очков, антураж (кресло, камин, библиотека) и даже характер освещения. Такой запрос с гораздо большей вероятностью породит настоящий шедевр.
Ну и, конечно же, пример сложного, комплексного промта для тех, кто не боится экспериментов.
Киберпанк-самурай с неоновой катаной стоит спиной под проливным дождём на улице ночного Токио, свет от вывесок отражается в лужах на асфальте, кинематографичное освещение, сложный ракурс снизу вверх, стиль Макото Синкая, гипердетализация, 8k.
В этом запросе сплелись воедино конкретный персонаж, детально прописанное окружение, сложная работа со светом и отражениями, а также отсылка к стилю известного японского режиссёра-аниматора. Выглядит впечатляюще.
Типичные ошибки новичков
Подводные камни есть в любом деле. Первая и главная ошибка – это неоднозначность. Не стоит писать «красивая девушка», ведь понятие красоты у всех разное, а у машины его и вовсе нет. Лучше уточнить: «девушка со светлыми волосами, заплетёнными в косу, и голубыми глазами». Вторая ошибка – это внутренние противоречия в запросе, например «солнечная полночь» или «подводный пожар». Хотя иногда такие оксюмороны могут привести к интересным художественным результатам, чаще всего они просто сбивают алгоритм с толку.
Кроме того, не стоит перегружать промт избыточными деталями. Попытка впихнуть в один запрос двадцать разных объектов приведёт к визуальной каше. Нейросеть попытается уместить всё и сразу, в результате чего могут появиться шестипалые люди или коты с тремя ушами. Процесс не сложный, но кропотливый. Стоит начинать с простого, постепенно наращивая сложность и наблюдая, как нейросеть реагирует на те или иные команды. Это же правило касается и отрицаний. Лучше избегать частицы «не». Вместо «девушка без шляпы» надёжнее написать «девушка с распущенными волосами», сделав акцент на том, что должно быть, а не на том, чего быть не должно.
Экспериментируйте, пробуйте, не бойтесь смешивать несовместимое. Изучайте работы других авторов, анализируйте, какие слова и формулировки они используют. Тем более, что в «Шедевруме» промты к картинкам открыты. Это же настоящий кладезь знаний для начинающего. И тогда ваш следующий запрос, возможно, породит настоящий цифровой шедевр, который прикуёт к себе тысячи взглядов. Удачи в творческих махинациях.