Создать промт для картинки

В сети представлено множество галерей с идеальными сгенерированными артами, где каждая деталь находится на своём месте. Кажется, что машина понимает создателя с полуслова. Но на практике опытный пользователь довольно часто натыкается на непреодолимую стену алгоритмического упрямства, когда нейросеть упорно игнорирует важные токены или смешивает стили в жуткую кашу. Дело в том, что диффузионные модели мыслят не художественными образами, а строгими математическими вероятностями, где одно неудачное прилагательное полностью ломает композицию. Буквально пару лет назад мы радовались абстрактным цветным пятнам, а сейчас индустрия требует точнейшего контроля над светом, оптикой и анатомией. Удивительно, но даже самые продвинутые генераторы по-прежнему нуждаются в жёсткой текстовой архитектуре. Поэтому для получения предсказуемого и профессионального результата желательно оперировать заранее проверенными формулами, избегая лирических отступлений.

Все топовые нейросети в одной подписке! 🚀

Устали оплачивать десятки сервисов отдельно и постоянно включать VPN? Появилась платформа, которая объединяет более 90 передовых ИИ в одном окне. Пишите тексты с новейшими версиями GPT и Claude, создавайте шедевры в Midjourney и генерируйте видео в Sora и Kling. Тексты, изображения, видео и музыка — всё работает на любых устройствах без «танцев с бубном».

Попробуйте бесплатно прямо сейчас! Переходите по ссылке и получите бонусные токены для старта 👉 https://clck.ru/3RNCRL

С чего начинается архитектура запроса?

Задача не из лёгких. Ведь машина не воспринимает текст как связный рассказ, она выхватывает ключевые теги и присваивает им веса. Начинать нужно с главного объекта, чтобы львиная доля внимания алгоритма досталась именно ему. К первой группе относится само описание предмета или персонажа, максимально сжатое, но ёмкое. Далее следует окружение, которое задаёт контекст. Следующий важный критерий — это освещение, способное кардинально поменять настроение кадра. Отдельно стоит упомянуть технические параметры оптики или рендера. Ну и, наконец, последним в списке идёт стилизация, где прописываются имена художников, названия движков или типы плёнки. Безусловно, опытные авторы часто перемешивают эти элементы, но именно такая последовательность даёт наименьший процент брака. И всё же, если базовый токен слаб, никакие махинации с настройками не спасут итоговое изображение.

Фотореализм

Свет из окна. Именно с этой крошечной детали часто стартуют самые удачные генерации портретов. К слову, добиться кинематографичной достоверности довольно сложно, поскольку нейросети всегда тяготеют к идеализированному пластиковому рендеру. Чтобы разрушить эту искусственность, в ход идут жёсткие фотографические маркеры. Например, добротный промт может выглядеть так:

A candid street portrait of an elderly man with deep wrinkles, sitting in a dimly lit cafe, raining outside, neon lights reflection, shot on 85mm lens, f/1.4, Kodak Tri-X 400 black and white film, dramatic cinematic lighting, extremely detailed, photorealistic, 8k

Здесь солирует не сам старик, а именно сочетание объектива на восемьдесят пять миллиметров и конкретной чёрно-белой плёнки Кодак. К тому же, добавление слов вроде «candid» или «amateur photo» снижает пафос картинки, добавляя ей жизненной небрежности. Естественно, не стоит забывать про текстуру кожи, иначе лица получатся слишком гладкими. Выручит в этой ситуации уточнение вроде:

skin pores, fine skin texture, imperfections

Как контролировать композицию?

Многие считают, что достаточно просто перечислить объекты через запятую, но на самом деле машина распределит их хаотично. Сложнее всего заставить алгоритм соблюдать заданную геометрию. Разумеется, на помощь приходят термины из арсенала кинооператоров. Использование таких фраз, как «extreme wide shot», «low angle shot» или «bird’s-eye view», творит настоящие чудеса. Тем более, что эти токены обладают огромным весом в базе данных любой современной диффузионной модели. Если нужно сфокусироваться на глазах, смело пишите:

extreme close up macro shot of an eye, reflections in the iris

А вот для масштабных сцен отлично работает «establishing shot». Конечно, иногда система всё равно упрямится и обрезает головы персонажам. Это же правило касается и групповых снимков. Спасательный круг здесь кроется в правильном соотношении сторон (аспектном ратном разрешении) и добавлении слов:

full body shot, standing in the center of the frame

Мрачные миры и фэнтези

Выбор сеттингов поистине безграничен. Устав от суеты реалистичных портретов, цифровые художники с удовольствием окунаются в конструирование выдуманных вселенных. Исконно сложным направлением выступает тёмное фэнтези, где грандиозный масштаб часто скатывается в нечитаемую темноту. Тем более важно грамотно прописывать источники света. Отличным примером станет запрос:

Epic colossal gothic castle standing on a cliff edge, stormy dark clouds, glowing red runes on the walls, mist rolling over the ground, flocks of ravens, moonlight breaking through clouds, Greg Rutkowski art style, grimdark fantasy concept art, hyperdetailed, Unreal Engine 5 render, volumetric fog

Обратите внимание, что здесь нет лишних глаголов. Всю атмосферу создают существительные и причастия. Вдобавок, упоминание движка пятого поколения заставляет алгоритм прорисовывать мелкие трещины на камнях и создавать сложную систему отражений. Изысканный антураж требует точных формулировок, иначе на выходе получится лишь серая мазня.

Стоит ли использовать негативные подсказки?

Однозначно да. Ведь именно они отсекают тот мусор, который алгоритм так любит добавлять по умолчанию. Особенно щепетильный подход требуется при генерации кистей рук, сложной анатомии или текста. В интерфейсах, поддерживающих негативные промты, обыватель часто пишет просто «bad anatomy, extra fingers», однако этого катастрофически мало. Профессионалы закидывают в блок отрицания десятки токенов. Во-первых, туда обязательно отправляются:

ugly, deformed, mutated, text, watermark, signature

Во-вторых, для избавления от 3D-эффекта на фотографиях добавляют:

illustration, painting, cartoon, anime, 3d render, cg, oversaturated

Ну и, наконец, чтобы избежать странного кадрирования, прописывают:

out of frame, cropped, cut off

Такая скрупулёзная фильтрация не сильно ударит по времени генерации, зато кошелёк станет легче от экономии токенов на неудачные попытки. Впрочем, иногда именно в негативный промт закладывается львиная доля успеха.

Киберпанк и футуризм

Настоящий рай для любителей неонового света. Огромные летающие машины, провода и дождь — всё это глубоко вшито в подкорку нейросетей. Особый интерес вызывает попытка отойти от стандартного вида ночного города и сгенерировать что-то более самобытное. Колоритный результат можно получить, если скрестить высокие технологии с неожиданной эпохой. Попробуйте такой вариант:

Victorian steampunk woman with cybernetic glowing blue eyes, intricate brass mechanical arm, standing in a dusty 19th-century library with floating neon holograms, hyper-realistic, cinematic lighting, ray tracing, octane render, vivid contrast

Здесь обе стороны медали — и старина, и будущее — сталкиваются в одном кадре. Однако машина может запутаться в стилях. Чтобы этого не произошло, веса токенов можно регулировать вручную, усиливая слова «steampunk» или «holograms» с помощью круглых скобок или множителей (в зависимости от синтаксиса конкретной сети). Это тяжёлый, но невероятно эффективный способ тонкой настройки.

Ошибки и подводные камни

Сюрпризы всплывут там, где их совсем не ждёшь. Например, при попытке создать простой минималистичный логотип. Нейросети обожают наляпистость и перегруженность деталями. Как заставить их остановиться? Лучше отказаться от длинных описаний и использовать короткие рубленые фразы.

Minimalist negative space logo of a fox head, clean lines, flat vector graphic, black and white, white background, no shading

Никакого упоминания света, оптики или рендеров. Только плоскость и вектор. К тому же, не стоит перебарщивать с цветами. Если указать сразу красный, синий и зелёный, алгоритм размажет их по всему холсту случайными пятнами. Контролировать палитру сложно, но выручает указание точного названия цветовой схемы. Фразы «monochromatic blue palette» или «analogous warm colors» работают куда точнее, чем простое перечисление оттенков.

Влияние художников

Имена творцов. Они работают как мощнейшие модификаторы стиля, заменяя собой десятки описательных слов. Если вам нужен вычурный орнамент, стоит упомянуть Альфонса Муху. Грезят о сюрреализме? Поможет Сальвадор Дали. Но есть и минусы такого подхода. Сеть может скопировать не только технику, но и конкретные мотивы известной картины, вплоть до узнаваемых лиц на заднем плане. Чтобы разбавить это влияние, авторы часто смешивают двух или трёх совершенно разных творцов. Совмещение стиля Хаяо Миядзаки с техникой Рембрандта выдаст неоднозначный, но потрясающе глубокий результат. При этом важно следить за тем, чьё имя стоит первым, ведь именно оно заберёт на себя максимум вычислительного внимания.

Удачи в творческих поисках и бесконечных экспериментах с промтами, пусть каждый ваш запрос оборачивается точным попаданием в цель, а сгенерированные изображения поражают коллег своим качеством и безупречной композицией. Перевоплощение завершено.