Промты для изображений в нейросетях

В сети представлено множество красивых картинок, сгенерированных алгоритмами, из-за чего у многих возникает иллюзия невероятной простоты этого процесса. Кажется, достаточно написать пару слов, и умная система сама додумает шедевр. Однако опытный обыватель быстро натыкается на суровую реальность, получая вместо шедевра нелепую наляпистость с шестью пальцами. Буквально десятилетие назад о таком уровне машинного креатива даже не мечтали, но сейчас нейросети требуют крайне скрупулёзного подхода к формулировкам. Дело в том, что искусственный интеллект не понимает метафор в нашем привычном человеческом смысле. Математические веса токенов служат для него единственным ориентиром. Поэтому перед началом масштабных тестов желательно обзавестись проверенным пулом рабочих текстовых конструкций.

Формула идеального запроса?

Ядро запроса, обрастающее затем второстепенными деталями, прописывается в самом начале. Начинать нужно с главного объекта. Затем этот объект наделяется чёткими физическими характеристиками. И только после этого персонаж или предмет помещается в конкретную среду. К слову, именно порядок слов часто творит чудеса. Ведь львиную долю внимания машина уделяет самым первым токенам. А вот хвост текстовой строки обычно оседает где-то на задворках машинного восприятия. Работает ли тут принцип максимального объёма текста? На самом деле, избыток поэтических эпитетов только вредит. Не стоит перегружать генерацию десятками синонимов в надежде на внезапное прозрение алгоритма. Гораздо эффективнее использовать точные технические термины из фотографии. Тем более, что именно они позволяют разложить по полочкам весь визуальный хаос.

Портретная съёмка в Midjourney

Объектив тридцать пять миллиметров со значением диафрагмы один и восемь десятых. Именно с таких сухих параметров часто стартует создание гиперреалистичных лиц. Обязательно ли указывать конкретную марку камеры? Вовсе нет. Но такие махинации с оптикой позволяют добиться естественного размытия заднего фона. Один из самых популярных рабочих вариантов для женского портрета строится на упоминании плёнки Kodak Portra 400. Далее в строку вписывается тип освещения. Компактное решение — использовать токен «cinematic lighting». Последним штрихом идёт указание текстуры кожи. Это нужно для уничтожения пластикового кукольного эффекта. К примеру, рабочий плотный промт выглядит так:

«Cinematic portrait of a tired mechanic, dirty face, Kodak Portra 400, 85mm lens, f/1.8, dramatic sidelight, ultra-detailed skin pores, photorealistic»

Зрелище получается удручающее своей суровой реалистичностью, однако для сложных проектов это лучший выбор. Да и самим виртуальным героям такая детализация придаёт невероятную глубину.

Архитектурные концепты

Стиль брутализм вперемешку с бионическими формами Захи Хадид. Безусловно, нейронные сети обожают смешивать визуально несовместимые вещи. Когда-то создание подобных скетчей отнимало у специалистов недели работы, а сейчас первые наброски генерируются за сорок секунд. Чтобы бетонная махина не выглядела плоской, стоит добавлять маркеры рендера. Часто выручает прямое указание движка Unreal Engine 5. Впрочем, не менее важна атмосферная составляющая кадра. Для экстерьера отлично работает связка «volumetric fog» и токена «architectural photography». И всё же не забудьте проконтролировать ракурс. Фраза «wide angle shot from below» кардинально меняет геометрию здания. А если ещё вспомнить про параметр соотношения сторон, то итоговая картинка сразу готова к презентации. Нужно отметить, что кошелёк заказчика от таких эффектных быстрых подач точно станет легче.

Коммерческая иллюстрацияльного приложения.

Стоит ли экономить слова?

Иногда невероятная лаконичность выдаёт более грандиозный результат. Многие считают длинные многоэтажные запросы признаком мастерства, но на самом деле короткий промт оставляет больше свободы самой машине.

Наряд для избранных. Именно так можно описать фразу «A cyberpunk samurai made of neon glass».

Подобный короткий старт приковывает внимание системы к самой сути объекта. Естественно, здесь мы жертвуем контролем над мелкими деталями фона. Зато нейросеть начинает использовать свои внутренние алгоритмы красоты на полную мощность. Конечно, для строгих коммерческих задач такой подход не годится, однако для поиска вдохновения он работает безупречно. Ну и, конечно же, нельзя не упомянуть влияние параметров стилизации в Midjourney. Высокие значения этого параметра буквально срывают тормоза у фантазии алгоритма. Это завораживает. Ведь каждая генерация превращается в непредсказуемую лотерею.

Работа со стилями эпох

Египетская цивилизация всегда вызывала трепет у художников по костюмам. Но как заставить машину выдать не банального персонажа из учебника? На помощь приходят неожиданные стилистические кроссоверы. Исконно исторические мотивы отлично переплетаются с современной вычурной игровой эстетикой. Сначала мы задаём базу токеном «Ancient Egyptian priestess». Затем переводим изображение в нужный жанр фразой «dark fantasy style». Третьим шагом персонажу предлагается облачиться в «obsidian armor». Подобные махинации с эпохами требуют скрупулёзного подбора материалов. Иначе сложный многогранный образ превратится в плоскую аппликацию. К тому же стоит добавить эффекты частиц вроде «dust particles». Внести свою лепту в атмосферу поможет токен «cinematic dark lighting». Перевоплощение завершено.

Отрицательный контроль

Параметр негативной подсказки. Это мощнейший скрытый инструмент в арсенале опытного инженера. В Stable Diffusion именно негативный текст часто солирует при исправлении ошибок. Вся суть в том, что проще объяснить алгоритму недопустимые вещи. Не стоит гнаться за огромными списками исключений. Лучше отказаться от бездумного копирования чужих шаблонов. Сначала мы отсекаем искажения пропорций токеном «deformed». Далее исключаем размытость словом «blurry». Затем убираем лишние конечности конструкцией «extra limbs». Обе стороны медали важны при настройке композиции. Часто слова из отрицательного блока начинают конфликтовать с основным запросом. Всплывут неожиданные артефакты освещения. Поэтому токены добавляются строго по одному.

Как добиться стабильности?

Сохранение одного и того же лица в разных сценах всегда было головной болью для создателей комиксов. Раньше это было настоящей пыткой. Сейчас же параметр референса персонажа решает львиную долю проблем. Значение веса этого параметра определяет степень похожести. Ноль сохранит исключительно черты лица. Сотня перенесёт даже пуговицы на пальто. Однако и здесь существуют свои непреодолимые постулаты. Алгоритм всё равно тяготеет к изменениям анатомии при сильной динамике. Если герой активно бежит, скулы могут слегка исказиться от виртуального ветра. Тем не менее, этот метод творит настоящие чудеса для серийных проектов. Бомонд цифровых художников давно взял эту функцию на вооружение. Настоящий кладезь возможностей открывается при комбинировании ссылок на стиль и на самого персонажа.

Освоение генеративного цифрового искусства требует времени. Не бойтесь ломать устоявшиеся текстовые конструкции. Насмотренность обязательно принесёт свои щедрые плоды. Удачи в проектировании ваших самых смелых визуальных миров!