Готовую картинку видит обыватель, совершенно не догадываясь, какие именно сложные махинации скрываются за этим красивым фасадом. В сети представлено множество сгенерированных изображений, от которых буквально захватывает дух, но когда пытаешься создать нечто подобное самостоятельно, на экране часто возникает невнятная наляпистость. Многие наивно полагают, что машине достаточно бросить пары слов для получения шедевра. А ведь именно грамотно составленный запрос творит настоящие чудеса, превращая хаотичный набор пикселей в изысканный визуальный продукт. Но чтобы не ошибиться в самом начале пути, нужно разложить по полочкам саму логику общения с нейросетью.
Техническая структура
Задача не из лёгких. Именно так думаешь, когда впервые открываешь интерфейс генератора. С чего начинается работа? С понимания базового синтаксиса. Дело в том, что литературные излияния целиком текстовая строка не воспринимает. Весь написанный массив текста она делит на отдельные токены, придавая каждому свой специфический вес. И чем ближе слово стоит к началу строки, тем сильнее оно влияет на итоговый результат. Стоит отметить, что главный объект опытные пользователи всегда ставят на самое первое место. За ним плавно следует окружение. Следом аккуратно прописывается освещение. Завершается же эта словесная конструкция техническими параметрами камеры или стиля. Это удобно. Ведь вычислительные мощности программа не будет тратить на обработку второстепенного фона, забыв про лицо главного героя. Да и самому человеку гораздо проще ориентироваться в такой жёстко структурированной записи.
С чего начинается выбор?
Поиск правильных слов. Часто новички вводят короткие рубленые фразы, искренне ожидая получить грандиозный результат. Однако совершенно иными, сухими математическими категориями мыслит вычислительная машина. Сложно ли укротить этот хаотичный процесс? Да, но результат определённо того стоит. Начать нужно с глубокого понимания того, что львиная доля итогового успеха кроется в детальном описании центрального объекта. Сначала в текстовую строку вводится основной субъект, обрастающий затем второстепенными деталями. Это логично. Ведь за что-то конкретное алгоритм должен зацепиться на старте. К слову, не стоит забывать о фоне, который довольно часто солирует наравне с главным персонажем. Банальные и скучные картинки всплывут на мониторе, если просто попросить нарисовать кота.
А вот запрос, описывающий пушистого рыжего кота, сидящего на старинном кожаном кресле в полумраке библиотеки, уже приковывает внимание зрителя.
И всё же одной лишь голой идеи здесь явно недостаточно.
Визуальный антураж
Настроение всей композиции сразу меняет температура света, выставленная ровно на четыре тысячи кельвинов. Дело в том, что правильное освещение задаёт нужный тон, делая плоское двухмерное изображение по-настоящему объёмным. Разумеется, в представлении многих людей машине достаточно указать слово «светло». Но на самом деле исключительно скрупулёзный подход к мелочам требует современный искусственный интеллект. Стоит отметить, что человеческое восприятие кардинально меняют кинематографический свет или мягкое утреннее сияние. Далее в строке запроса следует выбор желаемого стиля. Строгий фотореализм, требующий обязательного указания конкретных объективов реального фотоаппарата, относится к первой стилистической группе. Следующий важный критерий — подражание известным мировым художникам. Именно тогда мы просим систему сымитировать густые мазки Ван Гога, смешанные с геометрией Пикассо. Ну и, наконец, отдельно стоит упомянуть рендерные движки. Тот же движок Октан (весьма популярный среди профи), прописанный в самом конце строки, придаёт картинке добротный объёмный вид.
Генерации в Midjourney: пейзажи
Лёгкая дымка, стелющаяся над холодной утренней рекой, всегда придаёт кадру особую таинственность. Свои жёсткие постулаты имеет пейзажная генерация, нарушать которые крайне не рекомендуется. Буквально десятилетие назад детальная прорисовка хвойного леса занимала у цифрового художника несколько долгих дней, но сейчас нужный ландшафт появляется за тридцать секунд. Как добиться максимальной реалистичности? Ответ кроется в погодных условиях. Наличие тумана, проливного дождя или яркого палящего солнца прописывать нужно обязательно.
К примеру, базовый промт выстраивается через описание величественных снежных гор на рассвете, дополненных густым лесом у подножия, кристально чистым озером и кинематографическим освещением при съёмке с дрона.
Тем более, что мелкие огрехи в генерации пейзажи отлично прощают алгоритму. Совершенно не бросается в глаза лишняя ветка на дереве, в отличие от искажённого лица человека. Ну и, конечно же, не стоит сбрасывать со счетов время суток, задающее общий контраст.
Вредно ли перегружать запрос?
Обе стороны медали. С одной стороны, обилие красочных эпитетов даёт больше пищи для размышлений алгоритму. С другой — в десятках синонимичных прилагательных машина банально теряется. Безусловно, на первых порах хочется впихнуть в одну короткую строку вообще всё и сразу. Но есть и существенные минусы у такого максимализма. Нюанс заключается в том, что весьма ограниченный объём так называемого внимания имеет генеративная модель. Последние слова в длинной простыне текста она просто-напросто проигнорирует. Поэтому лучше отказаться от лишней словесной воды. Имеет прямой смысл использовать одно точное колоритный слово, скажем, «карминовый» или «бордовый», вместо перечисления всех возможных оттенков красного цвета. Тем более, что лаконичный и выверенный запрос обрабатывается серверами куда быстрее. Да и самому автору потом довольно просто вносить точечные корректировки в структуру текста. К тому же, не стоит перебарщивать с абстрактными понятиями, вроде «восхитительно» или «великолепно». Ведь для бездушного алгоритма они абсолютно лишены всякого смысла.
Примеры промтов: портреты
Наряд для избранных. Именно так иногда выглядят сгенерированные костюмы на виртуальных моделях. Настоящий кладезь вдохновения скрывается в запросах, направленных на лицевую эстетику и правильную одежду. Естественно, свою лепту в детальное описание текстуры кожи нужно внести, чтобы лицо выглядело по-настоящему живым. Как насчёт фасона одежды? Лучший вариант — уточнить конкретный материал.
Рабочий запрос часто звучит как описание крупного плана девушки с веснушками, облачённой в грубый льняной свитер, освещённой мягким боковым светом от окна, с указанием объектива на восемьдесят пять миллиметров и добавлением малой глубины резкости.
Впрочем, подход немного меняется, если нужен самобытный фэнтези-персонаж. Гарантированно выручит текст, запрашивающий молодого надменного эльфа с пепельными волосами в кожаной потрёпанной броне, на фоне мрачного леса в стиле тёмного фэнтези со сверхвысокой детализацией.
Предметная съёмка
По бюджету многих компаний сильно бьёт создание коммерческих иллюстраций, однако бюджетный выход из ситуации предлагают современные нейросети. Нужно сгенерировать флакон духов для рекламной кампании? Нет ничего проще. Идеальный свет и правильный фон диктуют здесь главные правила. Небрежности предметная генерация категорически не терпит. Нечто совершенно невразумительное выдаст короткий запрос про красивую бутылку на столе.
Зато промт, описывающий надёжный современный аппарат или элегантный стеклянный флакон парфюма с золотой крышкой, стоящий на чёрном мраморе, освещённый студийным светом и снятый в макро для рекламной фотографии, сразу выдаст глянцевый результат.
Кстати, на описание самого фона скупиться не стоит. Престижный вид продукта часто формирует именно он. Однотонная заливка позади объекта позволяет легко вырезать предмет в графическом редакторе для дальнейшего коммерческого использования.
Архитектура в кадре
Особой точности требует построение зданий. Когда-то инженеры чертили сложные фасады от руки. Затем они массово перешли в тяжёлые автоматизированные программы. А сегодня любому желающему достаточно грамотно выстроить слова на экране монитора. Нужно отметить, что к строгой геометрии и правильным пропорциям генерация строений тяготеет всегда. Крайне вычурный замок с кривыми покосившимися окнами выдаст искусственный интеллект, если не задать ему чёткие ограничительные рамки. Поэтому термины из реальной профессиональной архитектуры стоит использовать весьма активно. Откровенно плохо сработает фраза про двухэтажный дуплекс.
А вот текст, описывающий минималистичный бетонный дом на скале с панорамными окнами в пол, дополненный вечерним временем суток, тёплым светом внутри помещений и густым туманом над океаном, создаст поистине внушительный результат.
Кстати, использование готовых стилевых модификаторов (вроде киберпанка или стимпанка) не сильно ударит по кошельку или личному времени создателя. Невероятно впечатляюще всегда выглядит запрос на генерацию узкой улочки киберпанк-города с неоновыми яркими вывесками под проливным дождём и отражениями в глубоких лужах.
Стилизация под живопись
Мазки масляной краски, наложенные на холст густым слоем при помощи жёсткого мастихина, создают невероятную объёмную фактуру. Вся суть в том, что на огромных базах мирового классического искусства обучались все современные генеративные модели. С пугающей точностью они мастерски копируют техники ушедших эпох. Обязательно ли вписывать имя конкретного художника? Вовсе нет. Вполне достаточно точно описать само художественное направление. Нельзя не упомянуть, что для природных пейзажей отлично подходит классический импрессионизм.
Рабочий промт должен содержать указание заката над бескрайним пшеничным полем, выполненного в технике масляной традиционной живописи крупными грубыми мазками с использованием тёплых золотистых оттенков.
Однако к акварельной технике определённо стоит присмотреться, если люди грезят о чём-то более лёгком и воздушном. Хороший результат даёт описание портрета рыжей лисы в осеннем лесу, созданного через лёгкую полупрозрачную акварель со случайными потёками краски на плотной белой бумаге. Ну, а для преданных любителей графики спасательный круг кроется в запросах про мрачного детектива в длинном плаще на крыше небоскрёба, нарисованного в стиле нуарного американского комикса с резкими контрастными тенями.
Скрытые подводные камни
Незримо присутствует абсолютно в любом творческом деле ложка дёгтя. Лишние конечности у людей или животных стабильно становятся одной из самых частых и раздражающих проблем. Мелких деталей анатомии, таких как пальцы рук или зубы, это же негласное правило касается напрямую. Дело в том, что осознанно считать машина пока совершенно не умеет. Вероятное расположение цветных пикселей на экране она лишь математически угадывает. Использование так называемых негативных промтов спасает ситуацию лишь частично. Запрещающие мутации команды вписываются туда первыми. Следом идёт текстовая блокировка создания лишних пальцев. Отдельно отсекается сильная размытость и общая плохая анатомия. Конечно, стопроцентной гарантии идеального результата этот популярный метод не даёт. Однако общий процент визуального брака он существенно снижает. Само собой, к такому непривычному формату общения с холодным алгоритмом новичкам довольно сложно сразу привыкнуть. Процесс генерации нельзя назвать сверхсложным, но он невероятно кропотливый. Довольно много свободного времени придётся потратить, прежде чем начнёт получаться действительно исконно качественный цифровой продукт. Да и само томительное ожидание загрузки порой серьёзно испытывает человеческое терпение.
Эксперименты с текстовыми запросами открывают поистине безграничные горизонты для творчества. Не стоит бояться ошибаться и тестировать самые безумные сочетания слов, ведь каждая неудачная попытка неизбежно приближает автора к идеальному кадру. Пусть каждая сгенерированная картинка радует глаз, а освоенный навык написания грамотных запросов станет отличным решением для воплощения абсолютно любых визуальных идей.