Многие пользователи, впервые столкнувшись с генеративными нейросетями вроде Midjourney или Stable Diffusion, грезят о том, чтобы просто загрузить фотографию и получить на выходе идеальный, стилизованный шедевр. Они натыкаются на кнопку «Загрузить изображение», перетаскивают файл и с нетерпением ждут чуда. Каково же их разочарование, когда вместо готического портрета по фото любимой кошки на экране появляется нечто странное и лишь отдалённо напоминающее оригинал. Вся суть в том, что искусственный интеллект, даже самый продвинутый, не умеет читать мысли. Однако ключ к успеху кроется не только в удачном исходнике, но и в грамотно составленном текстовом задании. А начать стоит с того, чтобы разложить весь процесс по полочкам.
Что такое промт по фото?
Задача не из лёгких, но вполне решаемая. Промт (от англ. prompt – побуждение, подсказка) — это, по сути, ваше техническое задание для нейросети. Когда вы работаете с изображением, промт не заменяет его, а дополняет, направляя «фантазию» алгоритма в нужное русло. Вы как бы говорите машине: «Вот тебе основа, а теперь сделай с ней то-то и то-то». Без текстового сопровождения нейросеть попытается просто интерпретировать картинку по-своему, додумать детали, и результат почти всегда будет непредсказуемым. Довольно часто он оказывается просто удручающим. Поэтому не стоит пренебрегать словами. Именно текст превращает хаотичный творческий процесс в управляемый.
Сложно ли этому научиться? Вовсе нет. Главное — понять базовые постулаты, на которых строится взаимодействие с ИИ. В основе любого удачного запроса лежит чёткая и понятная для машины структура. Нужно отметить, что разные нейросети (например, Midjourney и Leonardo AI) могут иметь свои синтаксические нюансы, но общая логика остаётся неизменной. Она состоит из нескольких смысловых блоков, которые вместе творят настоящую магию.
Базовая структура: из чего состоит запрос?
Начать нужно с понимания того, что промт по фото — это не сплошное полотно текста, а скорее конструктор. Во-первых, его неотъёмлемой частью всегда будет прямая ссылка на исходное изображение. Вы загружаете фото на сервер (например, в Discord для Midjourney) и получаете URL-адрес. Этот адрес и есть отправная точка для всех дальнейших махинаций. Без него нейросеть просто не будет знать, с чем работать.
Во-вторых, идёт описание того, что вы хотите видеть на финальном изображении. Здесь стоит быть максимально конкретным. Если на исходнике изображён человек, а вы хотите превратить его в эльфа, то так и пишете: «эльф с длинными светлыми волосами и заострёнными ушами». Не стоит надеяться, что нейросеть сама догадается переделать уши или изменить причёску. Каждый важный для вас элемент должен быть прописан. Это же правило касается и окружения. Хотите, чтобы за спиной персонажа был заколдованный лес, а не офисная стена? Укажите это.
Следующий важный критерий — стилистика. Это, пожалуй, самая творческая и интересная часть работы. Здесь вы задаёте антураж, настроение и художественную манеру. Вариантов – кладезь. Можно запросить стиль конкретного художника («in the style of Vincent van Gogh»), кинематографическое направление («cinematic shot, film noir»), определённую технику рисования («watercolor painting», «charcoal sketch») или даже эстетику целой эпохи («art deco poster»). Отдельно стоит упомянуть технические параметры, которые венчает вся эта конструкция. К ним относится указание на соотношение сторон (например, –ar 16:9 для широкоформатного изображения), версия алгоритма или степень «творческой свободы» нейросети.
Как нейросеть «видит» изображение?
Чтобы успешно управлять инструментом, полезно хотя бы в общих чертах понимать, как он работает. В представлении многих обывателей нейросеть «смотрит» на фото так же, как человек. Но на самом деле всё несколько сложнее и интереснее. Когда-то давно для анализа изображений использовались довольно примитивные алгоритмы, но сейчас львиная доля современных моделей работает на архитектурах, подобных CLIP от OpenAI. Эта технология научилась находить связь между визуальной и текстовой информацией.
Проще говоря, нейросеть не видит «кота на диване». Она видит набор пикселей, который ассоциируется у неё с текстовыми описаниями «кот», «пушистый», «рыжий», «лежит», «диван», «уютная комната». Когда вы даёте ей фото и текстовый промт, она как бы накладывает одно на другое. Ссылку на фото она использует как мощный референс, источник композиции, цветовой палитры и основных форм. А текст — как инструкцию по трансформации. Например, если вы к фото кота добавите слово «тигр», алгоритм найдёт в своей «библиотеке» ассоциации, связанные с тиграми (полоски, более хищная морда, мощные лапы), и попытается применить их к исходным формам вашего кота. Результат — гибрид, сохранивший позу и композицию оригинала, но обретший черты другого животного.
Примеры готовых промтов: от простого к сложному
Теория — это хорошо, но без практики она мертва. Давайте разберём несколько конкретных сценариев, чтобы всё стало кристально ясно. К слову, для наглядности будем считать, что ссылка на исходное изображение у нас уже есть и в промте она обозначается как [image_url].
Начнём с простой задачи. Допустим, у вас есть портретное фото вашего друга, снятое днём в парке. Вы хотите превратить его в персонажа киберпанк-вселенной. Задача — изменить одежду, фон и добавить неонового освещения, сохранив при этом узнаваемость лица. Добротный промт для такой задачи может выглядеть так:
[image_url] a man in a futuristic cyberpunk jacket with glowing neon patterns, standing on a rainy street of a futuristic megapolis, cinematic lighting, ultra detailed, photorealistic
Теперь усложним. У вас есть пейзажная фотография летнего поля с домиком на горизонте. Вы хотите переосмыслить её в стиле картин Хаяо Миядзаки. Задача — сохранить общую композицию, но полностью изменить художественный стиль. В этом случае на первый план выходит именно стилистическое описание. Промт будет короче, но не менее эффективным:
[image_url] a cozy little house in a green field under a blue sky with fluffy clouds, in the style of a Studio Ghibli anime, masterpiece, beautiful detailed background
Ну и, наконец, пример для скрупулёзных пользователей. Представим, что у вас есть фото простого красного яблока на белом фоне. Вы хотите превратить его в магический артефакт. Здесь придётся поработать с деталями. Вот какой может быть запрос:
[image_url] a magic apple made of sparkling crystal, glowing with a soft inner blue light, ancient runes are carved on its surface, epic fantasy art, hyperrealistic, octane render
Распространённые ошибки: чего стоит избегать?
Подводные камни есть в любом деле. И работа с нейросетями — не исключение. Чтобы не натыкаться на одни и те же грабли, стоит запомнить несколько вещей. Во-первых, не стоит быть слишком многословным и перегружать запрос противоречивыми деталями. Нейросеть может запутаться, если вы попросите одновременно «фотореалистичный мультяшный рисунок». Выберите что-то одно.
Во-вторых, избегайте абстрактных и неоднозначных понятий. Слова вроде «красивый», «необычный» или «интересный» для машины — пустой звук. Что красиво для вас, то для алгоритма — лишь набор статистических вероятностей. Лучше заменить «красивое платье» на «элегантное вечернее платье из красного бархата с золотой вышивкой». Конкретика творит чудеса.
Ну и, конечно же, не забывайте про «вес» изображения. В некоторых нейросетях (в частности, в Midjourney) можно задать параметр –iw (image weight) от 0 до 2. Чем выше это значение, тем сильнее финальный результат будет похож на исходную фотографию. Если вы хотите лишь слегка изменить стиль, ставьте высокий вес (например, 1.8). А если нужна кардинальная трансформация, где от оригинала останется только композиция, — смело снижайте его до 0.5.
Не бойтесь экспериментировать с формулировками, менять слова местами и пробовать разные стили. Ведь именно в этом творческом поиске и рождаются настоящие цифровые шедевры. Перевоплощение завершено.