В сети представлено множество удивительных, а порой и откровенно абсурдных изображений, созданных нейросетями. Кто не видел знаменитого Папу Римского в белоснежном пуховике от Balenciaga, который наделал столько шума? Этот вирусный шедевр, обманувший миллионы, наглядно показал две вещи: безграничные возможности искусственного интеллекта и то, как мало обыватель понимает, каким образом рождаются подобные картинки. Многие до сих пор грезят о создании чего-то подобного, но часто натыкаются на разочарование – нейросеть выдаёт совсем не то, что было в голове. А чтобы не ошибаться и научиться творить настоящие чудеса, стоит для начала разложить по полочкам, что такое промт и как его правильно составить.
Что такое промт и почему он важен?
В представлении многих, запрос для нейросети – это просто пара слов, брошенных в диалоговое окно. Написал «Папа Римский» – и ждёшь фотореалистичный портрет. Но на самом деле всё куда сложнее. Промт – это, по сути, детальное техническое задание для цифрового художника, коим и выступает ИИ. Чем точнее и подробнее инструкция, тем ближе к задумке окажется конечный результат. Это как объяснять задачу живописцу: можно сказать «нарисуй пейзаж», а можно уточнить – «нарисуй осенний лес на закате, с туманом над рекой, в стиле Ивана Шишкина». Чувствуете разницу? С нейросетями (например, Midjourney или Stable Diffusion) дело обстоит точно так же. Именно от скрупулёзности и точности формулировок в конечном итоге и зависит, получите ли вы шедевр или невнятную мешанину пикселей.
Задача не из лёгких. Ведь нужно не просто описать объект, но и задать ему настроение, стиль, освещение, ракурс и даже технические параметры съёмки, если речь идёт о фотореализме. Каждая деталь, каждый эпитет вносит свою лепту в итоговое изображение. Не стоит забывать, что нейросеть не обладает человеческим воображением и чувством вкуса, она лишь скрупулёзно следует инструкциям, анализируя гигантские массивы данных. Поэтому плохой промт почти всегда приводит к удручающему результату. А вот хороший, добротный запрос способен творить настоящую магию, заставляя машину генерировать изображения, которые сложно отличить от работ реальных художников и фотографов.
Базовая структура: из чего состоит запрос?
Стоит ли изобретать велосипед? Вовсе нет. Существуют определённые постулаты, на которые опираются опытные пользователи. Чтобы получить предсказуемый и качественный результат, запрос стоит строить из нескольких логических блоков. Во-первых, это главный объект и его описание. Здесь мы указываем, кто или что должно солировать в кадре. Не просто «Папа», а «пожилой Папа Франциск с доброй улыбкой». Во-вторых, необходимо задать действие и окружение. Наш персонаж может «сидеть на троне в Ватикане», «ехать на мотоцикле по Риму» или даже «играть в баскетбол с кардиналами». Антураж имеет огромное значение.
Далее следует, пожалуй, самый важный блок – стилистика. Именно он определяет визуальную эстетику. Хотите ли вы получить «фотографию, снятую на плёночный фотоаппарат», «масляную живопись в стиле барокко», «рисунок углём» или «сцену из аниме студии Ghibli»? Этот пункт напрямую говорит нейросети, на какие образцы из своей базы знаний ей ориентироваться. Ну и, наконец, последний блок – технические детали и уточнения. Сюда входят параметры освещения («кинематографический свет», «мягкий утренний свет», «неоновое освещение»), детализация («высокая детализация», «8K», «гиперреализм») и другие нюансы, вроде ракурса («вид сбоку», «крупный план»). Соединив все эти компоненты, мы получаем мощный инструмент для управления творческим процессом ИИ.
Готовые промты: от классики до авангарда
Давайте перейдём от теории к практике. Как может выглядеть хороший промт для генерации изображения с понтификом? Разберём несколько разноплановых примеров, чтобы понять логику.
Предположим, нам нужен классический, величественный портрет. Задача – передать торжественность и духовную глубину. Промт может быть таким:
epic oil painting of Pope Francis sitting on a papal throne in a grand hall of the Vatican, solemn and thoughtful expression, wearing intricate white and gold papal vestments, dramatic chiaroscuro lighting, style of Caravaggio, hyperdetailed, masterpiece –ar 2:3
Что мы здесь видим? Сначала идёт стиль – «эпическая масляная живопись». Затем объект и его поза – «Папа Франциск сидит на папском троне». Далее уточняется окружение и выражение лица – «в грандиозном зале Ватикана, торжественное и задумчивое выражение». Особый акцент на деталях одежды и, что критически важно, на свете – «драматическое освещение кьяроскуро». Ну и, конечно же, прямая отсылка к великому мастеру – «в стиле Караваджо», что сразу задаёт нужный тон. Технические маркеры hyperdetailed и masterpiece повышают общее качество, а –ar 2:3 задаёт вертикальное соотношение сторон, идеальное для портрета.
А если захочется чего-то совершенно противоположного, на грани фола? Вспомним тот самый пуховик. Вот как можно создать нечто подобное, но с другой идеей:
ultra-realistic photo of Pope Francis as a cool rock guitarist on a huge concert stage, playing a white Fender Stratocaster electric guitar, surrounded by smoke and purple stage lights, ecstatic crowd in the background, shot on a Sony A7III camera with a 50mm f/1.8 lens, cinematic blur –ar 16:9
Здесь всё построено на контрасте. Ключевое слово – ultra-realistic photo, которое заставляет ИИ имитировать снимок, а не картину. Уточнение про модель гитары (Fender Stratocaster) и параметры камеры с объективом добавляют правдоподобности. Освещение и антураж – «дым и фиолетовые сценические огни, восторженная толпа» – создают атмосферу рок-концерта. Горизонтальный формат –ar 16:9 идеально подходит для такой динамичной сцены.
Ну и, наконец, вариант для ценителей искусства и стилизаций. Допустим, мы хотим увидеть понтифика в необычном художественном образе. Промт мог бы звучать так:
Art Nouveau illustration of Pope Francis, stylized portrait, surrounded by ornate patterns of lilies and doves, elegant flowing lines, muted pastel colors with gold leaf accents, in the style of Alphonse Mucha, intricate detail, textured paper –s 750
В этом запросе всё подчинено стилю модерн (Art Nouveau). Уточнение про «витиеватые узоры из лилий и голубей» и «элегантные плавные линии» – это прямые маркеры стиля. Цветовая палитра («приглушённые пастельные тона с акцентами сусального золота») и отсылка к Альфонсу Мухе не оставляют нейросети пространства для неверной интерпретации. Параметр –s 750 (в Midjourney он отвечает за степень стилизации) заставит алгоритм активнее применять заданную эстетику.
Какие ошибки чаще всего допускают?
На пути к идеальному изображению обывателя поджидает немало подводных камней. Самая частая ошибка – это излишняя лаконичность и абстрактность. Не стоит писать просто «папа в космосе». Что за папа? Какой космос? Он в скафандре или в рясе? Летит на фоне Земли или туманности Андромеды? Без уточнений результат будет случайным. Вторая проблема – внутренние противоречия в запросе. Попытка смешать несовместимые стили, например, «кубизм» и «фотореализм», или «минимализм» и «барокко», скорее всего, запутает нейросеть, и на выходе получится невнятный гибрид.
Кроме того, новички часто забывают про негативные промты. А ведь это настоящий спасательный круг. Если вы видите, что ИИ постоянно добавляет на изображение лишние пальцы, уродливые лица на заднем плане или ненужные объекты, можно использовать специальную команду (чаще всего –no), чтобы исключить их. Например, –no ugly, deformed hands, extra limbs. Это же правило касается и цветов: если вы не хотите видеть красный, просто добавьте –no red. Ещё один нюанс – не стоит перебарщивать с деталями. Слишком длинный и перегруженный промт с десятками эпитетов может привести к тому, что нейросеть потеряет фокус и проигнорирует часть инструкций. Главное здесь – найти золотую середину.
Эксперименты с промтами – это довольно увлекательный и творческий процесс. Он учит точности формулировок, расширяет кругозор в области искусства и фотографии и, конечно же, позволяет создавать поистине впечатляющие визуальные образы. Не нужно бояться пробовать, менять слова местами, добавлять неожиданные детали или отсылки к любимым художникам. Каждая новая попытка – это шаг к пониманию того, как «мыслит» эта сложная, но невероятно мощная технология.
Так что не бойтесь экспериментировать, смешивать стили и творить. Удивительные результаты не заставят себя ждать.