В сети представлено грандиозное множество изображений, созданных искусственным интеллектом. Натыкаешься на очередной шедевр и невольно задаёшься вопросом: «Как они это делают?». Хочется повторить, создать что-то похожее, но в своей стилистике, привнести собственную изюминку. Но попытки описать картинку своими словами часто приводят к удручающему результату, который и близко не стоит с оригиналом. Вся суть в том, что нейросеть – это не художник-экстрасенс, а скрупулёзный исполнитель, которому нужно предельно точное техническое задание. Поэтому, чтобы творческие порывы не бились о стену машинного непонимания, стоит разложить по полочкам искусство составления правильных промтов.
Что такое промт и зачем он нужен?
Многие считают, что промт (от англ. prompt – побуждение, подсказка) – это простое описание желаемого. Например, «рыжий кот на крыше». Но на самом деле всё гораздо сложнее. Промт – это, по сути, код, инструкция для нейросети, написанная на условно человеческом языке. От того, насколько детально и грамотно составлен этот «код», напрямую зависит 90% успеха. Слабый, размытый запрос породит такое же невнятное изображение. А вот подробный, многослойный промт способен творить настоящие чудеса, создавая фотореалистичные картины, которые сложно отличить от работ профессионального фотографа. С чего же начинается этот сложный, но увлекательный процесс? С понимания структуры, скелета, на который потом будут нанизываться мышцы деталей и кожа стиля.
Базовая структура: Скелет запроса
Задача не из лёгких. Но если понять логику, всё становится довольно просто. Любой добротный промт условно можно разделить на несколько смысловых блоков, которые нейросеть считывает и комбинирует. Во-первых, это главный объект и его действие. Кто или что находится в центре кадра и чем занимается? Человек, животное, здание, предмет – неважно. Главное – чётко его обозначить. Например, «старый волшебник читает книгу». Это основа, от которой мы будем отталкиваться.
Далее следует блок детализации объекта и окружения. Здесь начинается самое интересное. Нужно описать внешность волшебника (длинная седая борода, морщинистое лицо, остроконечная шляпа), его одежду (тёмно-синяя мантия, расшитая серебряными звёздами), книгу (в толстом кожаном переплёте с тиснёным символом). Не стоит забывать и про антураж. Где он находится? В тускло освещённой библиотеке с высокими стеллажами, заваленными древними фолиантами. Этот этап требует щепетильного подхода, ведь именно детали вдыхают в изображение жизнь.
Следующий важнейший критерий – стилистика. Хотите ли вы получить рисунок, 3D-графику или фото? Если фото, то какое? Возможно, это снимок, сделанный на плёночный фотоаппарат с характерной зернистостью, или же глянцевый студийный портрет. К слову, один из самых мощных инструментов здесь – указание на работы конкретных фотографов или художников. Упоминание, к примеру, «in the style of Annie Leibovitz», мгновенно задаст нейросети вектор на определённую манеру съёмки, освещения и композиции. Кроме того, можно указать на конкретные художественные течения – импрессионизм, сюрреализм, киберпанк.
Ну и, конечно же, технические параметры. Этот блок часто игнорируют новички, а зря. Ведь именно он отвечает за «профессионализм» итоговой картинки. Здесь стоит указать тип камеры и даже объектива (например, «shot on a Canon EOS 5D Mark IV with an 85mm f/1.2L lens»). Это помогает нейросети имитировать конкретную оптику, глубину резкости и боке. Также нужно задать освещение: «кинематографический свет», «мягкий студийный свет», «неоновое освещение», «золотой час». И, наконец, базовые параметры вроде соотношения сторон («–ar 16:9» для горизонтального кадра или «–ar 2:3» для вертикального) и команды для повышения детализации и качества.
Стоит ли копировать чужие промты?
В сети можно найти целые библиотеки готовых промтов. Возникает соблазн просто взять чужой запрос, вставить в нейросеть и получить шедевр. Эффективно ли это? С одной стороны, это отличный способ обучения. Анализируя чужие работы, вы начинаете понимать, какие слова и команды дают тот или иной эффект, открываете для себя новые стили и имена художников. Это спасательный круг для начинающего. Однако, с другой стороны, слепое копирование убивает творчество. Вы становитесь не создателем, а оператором, просто нажимающим кнопку «сгенерировать». Истинное мастерство приходит тогда, когда вы, вдохновившись чужой идеей, создаёте на её основе что-то своё, пропуская через призму собственного видения.
Практические примеры: Разбираем на атомы
Давайте представим, что мы хотим сгенерировать фото кибер-самурая в неоновом Токио. Простой запрос «кибер-самурай в Токио» даст нам довольно плоский и предсказуемый результат. А теперь давайте соберём детальный промт.
Вот что может получиться:
photorealistic full-body shot of a japanese female cyborg samurai, intricate futuristic armor with glowing blue circuits, holding a glowing katana, standing on a wet street in a rainy cyberpunk tokyo, neon signs reflecting in puddles, cinematic lighting, moody atmosphere, shot on Sony A7III with a 50mm f/1.8 lens, detailed, hyperrealistic, 8k –ar 2:3
Что мы здесь видим? Начинается всё с указания на фотореализм и план («photorealistic full-body shot»). Затем идёт детальное описание объекта («japanese female cyborg samurai, intricate futuristic armor with glowing blue circuits, holding a glowing katana»). После этого мы задаём окружение и его нюансы («on a wet street in a rainy cyberpunk tokyo, neon signs reflecting in puddles»). Далее следуют команды, отвечающие за атмосферу и свет («cinematic lighting, moody atmosphere»). Ну и, наконец, технический блок, который приковывает внимание к деталям («shot on Sony A7III with a 50mm f/1.8 lens, detailed, hyperrealistic, 8k») и соотношение сторон («–ar 2:3»). Такой скрупулёзный подход заставляет нейросеть работать на полную мощность.
А вот пример для создания портрета:
Close-up portrait of an old charismatic fisherman with a thick white beard and deep wrinkles, kind eyes, wearing a worn yellow raincoat, background of a stormy sea with dramatic dark clouds, style of Steve McCurry, sharp focus, high detail, natural light –ar 4:5
Здесь львиная доля внимания уделена эмоциям и деталям лица («charismatic», «deep wrinkles», «kind eyes»), а ссылка на известного фотографа Стива Маккарри задаёт колоритный, документальный стиль.
Какие ошибки чаще всего допускают?
Самая распространённая ошибка – это расплывчатость. Слова «красивый», «необычный», «фантастический» для нейросети – пустой звук. Ей нужна конкретика. Не «красивое платье», а «длинное вечернее платье из красного бархата с открытой спиной». Вторая проблема – использование противоречащих друг другу понятий. Например, «минимализм, барокко». Нейросеть просто не поймёт, чего вы от неё хотите, и результат будет неоднозначным. Не стоит перегружать запрос и синонимами. «Детализированный, подробный, проработанный» – достаточно одного из этих слов. Ну и, наконец, не забудьте про негативные промты (команда «–no»). Если вы не хотите видеть на картинке, например, деревья, просто добавьте «–no trees». Это поможет отсечь лишнее.
Процесс создания идеального промта – это не магия, а скорее ремесло, требующее практики и наблюдательности. Не бойтесь экспериментировать, менять слова местами, добавлять и убирать детали. Каждый новый запрос – это ещё один шаг к полному взаимопониманию с искусственным интеллектом. Удачи в ваших творческих экспериментах, и пусть каждая сгенерированная картинка радует вас своей глубиной.