В сети представлено множество удивительных изображений, созданных искусственным интеллектом. Глядя на фотореалистичные портреты несуществующих людей или фантастические пейзажи, невольно задаёшься вопросом: как это вообще возможно? Многие обыватели, вдохновившись чужими работами, пробуют свои силы в популярных нейросетях вроде Midjourney или Stable Diffusion, но часто сталкиваются с разочарованием. Вместо шедевра на экране появляются кривые, размытые или просто нелепые картинки, не имеющие ничего общего с первоначальной задумкой. Но чтобы не ошибиться и научиться «говорить» с машиной на одном языке, нужно сперва разложить по полочкам её логику и освоить искусство составления правильных запросов.
Что такое промт и почему он так важен?
Задача не из лёгких. В представлении многих, нейросеть — это некий цифровой художник, который сам додумывает детали и творит. Но на самом деле всё гораздо прозаичнее. Промт (от английского prompt — «побуждение», «команда») — это текстовое техническое задание, которое вы даёте алгоритму. Это не просьба, а инструкция. Чем детальнее и точнее она будет, тем предсказуемее и качественнее получится результат.
Плохой промт — это как заказать у повара «что-нибудь вкусненькое», а потом удивляться, почему принесли манную кашу, а не стейк. Хороший промт, напротив, скрупулёзно описывает и сам стейк, и степень его прожарки, и гарнир, и даже узор на тарелке.
С чего начинается создание запроса? С определения главной идеи. Это основа, скелет будущего изображения. Вы должны чётко сформулировать, что или кто солирует в кадре. Это может быть конкретный объект, например, «старинный граммофон», персонаж, вроде «девушка-воин в доспехах», или целый сюжет — «космический корабль терпит крушение на неизвестной планете». Не стоит на этом этапе перегружать запрос деталями, главная задача — задать основное направление. Только после того, как вы определились с ядром композиции, можно переходить к следующему, не менее важному этапу — насыщению картинки подробностями. И здесь уже стоит проявить фантазию.
Далее следует уточнение деталей. Это тот самый момент, когда ваша фантазия может разгуляться. Опишите внешность персонажа (цвет волос, выражение лица, одежда), окружение (интерьер комнаты, лесная поляна, городская улица), время суток и погоду. Чем больше конкретики, тем лучше. Вместо «мужчина в лесу» напишите «пожилой седовласый друид в зелёной мантии стоит посреди залитого солнечным светом древнего леса». Чувствуете разницу? К слову, именно на этом этапе всплывает львиная доля ошибок у новичков, которые ленятся прописывать нюансы и получают на выходе нечто обобщённое и бездушное. Не скупитесь на прилагательные и уточняющие обороты, ведь они творят настоящие чудеса.
Фотореализм: Как заставить нейросеть поверить в реальность?
Добиться эффекта настоящей фотографии — одна из самых сложных, но и самых интересных задач. Здесь одних описаний будет мало. На помощь приходят технические маркеры, которые имитируют работу профессионального фотографа. Представьте, что хотите получить снимок грустного старого рыбака. Ваш запрос может выглядеть примерно так: «photo of a melancholic old fisherman with a detailed weathered face, grey beard, wearing a knitted sweater, sitting on a wooden boat, dramatic evening light, mist over the lake, taken on a Canon EOS 5D camera with a 85mm f/1.8 lens, hyperrealistic, high detail, 8k». Давайте разберём эту махинацию.
Всё начинается со слова «photo», которое сразу задаёт нужный тон. Далее идёт описание объекта — «melancholic old fisherman» (меланхоличный старый рыбак) с уточнениями про его внешность и одежду. А вот затем начинается магия. Упоминание конкретной камеры и объектива заставляет нейросеть имитировать оптические свойства реальной техники, включая глубину резкости и характер боке. Такие термины, как «hyperrealistic», «high detail» и «8k», прямо указывают на необходимость максимальной проработки текстур и разрешения. Дополняет образ описание освещения — «dramatic evening light» (драматичный вечерний свет). В совокупности все эти элементы и создают ощущение подлинности снимка.
Художественные стили: Погружение в мир искусства
Что насчёт живописи? Здесь простор для творчества ещё шире. Нейросети обучены на гигантском объёме данных из истории искусств, поэтому они способны имитировать практически любой стиль. Вы можете заказать картину в духе импрессионизма, киберпанка, стимпанка или готики. Особый интерес вызывает смешение стилей или подражание конкретным художникам. Это же настоящий кладезь возможностей для создания чего-то совершенно нового. Например, почему бы не нарисовать портрет кота в стиле Ван Гога или городской пейзаж, как если бы его создавал Хаяо Миядзаки?
Попробуем составить запрос для создания сказочной иллюстрации. Допустим, мы хотим изобразить лису-волшебницу в своей лаборатории. Промт может быть таким: «digital painting of a cunning anthropomorphic fox sorceress in a wizard robe, standing in a magical laboratory filled with glowing potions and ancient scrolls, intricate details, style of fantasy art by Brian Froud and Arthur Rackham, cinematic lighting, whimsical atmosphere». Здесь мы сразу указываем на цифровую живопись, описываем антропоморфную лису-чародейку и её антураж. Но изюминка кроется в упоминании имён — Брайан Фрауд и Артур Рэкхем. Это два знаменитых иллюстратора, работавших в жанре фэнтези. Нейросеть, получив такую команду, попытается объединить их самобытные стили, что приведёт к довольно интересному и неоднозначному результату.
Негативные промты: Чего не должно быть на картинке?
Даже самый скрупулёзный запрос не застрахован от появления артефактов. Искусственный интеллект до сих пор не очень хорошо справляется с некоторыми деталями, особенно с руками. Шесть пальцев на руке, странно изогнутые конечности, асимметричные лица — зрелище удручающее. К счастью, существует спасательный круг — негативные промты. Это специальная команда, которая перечисляет всё то, чего вы не хотите видеть на изображении. В большинстве сервисов она добавляется в конце основного запроса с помощью специального флага.
Что обычно включают в этот стоп-лист? Во-первых, это всё, что связано с уродством и плохой анатомией. Можно смело писать «ugly, deformed, disfigured, bad anatomy, extra limbs». Во-вторых, стоит избавляться от размытости и низкого качества — «blurry, low quality, jpeg artifacts». Ну и, конечно же, никто не любит посторонние элементы, которые иногда генерирует нейросеть, поэтому добавляем «text, watermark, signature, username». Такой простой приём помогает отсечь львиную долю брака и значительно повышает чистоту финального изображения. Не стоит им пренебрегать, тем более что это совсем несложно.
Путь от идеи до визуального воплощения вымощен словами. Не бойтесь экспериментировать, смешивать несовместимое и описывать своё видение в мельчайших деталях. Разумеется, на первых порах могут быть неудачи, но с практикой вы научитесь получать именно тот результат, о котором грезили. Ваше воображение — единственный предел. Удачи в ваших творческих поисках.