В сети представлено множество завораживающих цифровых полотен, однако на практике каждый оператор сталкивается с суровой реальностью пластиковых лиц и лишних конечностей. Ведь обыватель зачастую просто вбивает пару слов, искренне надеясь на чудо и силу алгоритмов. Буквально полтора года назад нейросети выдавали абстрактную мазню по сложным запросам, но сейчас математические модели научились понимать сложнейшие синтаксические конструкции. А если ещё вспомнить про новые версии архитектуры Stable Diffusion, то возможности кажутся безграничными. Однако спектр успешных результатов не ограничивается одним лишь везением. Но чтобы не ошибиться в ожидаемом результате, нужно выстраивать текст по строгим инженерным правилам.
Архитектура запроса
С чего начинается выбор правильных слов? С определения главного объекта, окружённого деталями, помещённого в конкретную среду, освещённого нужным светом. Один из самых популярных подходов подразумевает сначала указание медиума (например, фотография или живопись), затем следует скрупулёзный разбор внешности персонажа. Далее к этой основе добавляются параметры камеры, ну и, наконец, прописываются стилистические токены вроде названий конкретных движков рендера. Разумеется, процесс создания такой конструкции не сложный, но довольно кропотливый. Дело в том, что машина воспринимает слова последовательно, и вес первых токенов всегда преобладает над концовкой. Не перегружайте начало шелухой из абстрактных понятий.
Портретная фотография
Наряд для избранных. Это действительно так. Ведь создать журнальный глянцевый портрет с первого раза умеют далеко не все. Исконно рекламный формат требует щепетильного контроля над тенями и текстурой кожи. К слову, львиная доля коммерческих заказов сейчас тяготеет к суровому реализму, где откровенная наляпистость абсолютно недопустима. Чтобы получить добротный студийный кадр, стоит использовать проверенный шаблон:
«fashion portrait of a thirty-year-old woman, sharp facial features, wearing a minimalist silk dress, shot on Hasselblad H6D-100c, 85mm lens, f/1.8, Rembrandt lighting, muted colors, ultra-detailed, 8k»
Именно солирует здесь модель камеры и тип освещения. Естественно, результат во многом зависит от версии программы, но эта техничная связка творит чудеса.
Стоит ли усложнять?
Многие считают, что чем длиннее текст, тем качественнее будет арт, но на самом деле это глубокое заблуждение. Работает ли простыня из сотни эпитетов? Вовсе нет. Чаще всего лишние токены просто сбивают алгоритм с толку, и в итоге натыкаешься на совершенно непредсказуемый визуальный мусор. А вот лаконичный ёмкий запрос часто бьёт точно в цель. Тем более что современные генераторы прекрасно считывают короткие ёмкие концепты. Однако отказываться от стилизации полностью не стоит, ведь именно изюминка в виде конкретного художника или исторической эпохи задаёт нужный антураж. К тому же, если запрос окажется слишком скудным, картинка рискует стать откровенно банальной.
Концепт-арт и фэнтези
Сначала выписывается имя художника, потом цветовая палитра, и только после этого сам сюжет. Именно так действовали пионеры цифрового искусства, когда пытались укротить первые непослушные диффузионные модели. Безусловно, создание грандиозного эпического пейзажа или колоритного фэнтези-персонажа требует знания бомонда цифровой живописи. Например, запрос сразу расставит нужные акценты:
«cyberpunk street market at rainy night, neon glowing signs, crowded with cyborgs, cinematic composition, concept art by Syd Mead, volumetric fog, unreal engine 5»
Здесь концепт, усиленный стилем мастера, сдобренный атмосферными эффектами, выдаёт внушительный кинематографический кадр. Ну а ложка дёгтя кроется в том, что нейросеть может переборщить с неоном, поэтому насыщенность стоит жёстко контролировать.
Коммерческая иллюстрация
Серьёзное вложение времени требуется и для генерации плоских векторов. Когда-то отрисовка набора иконок для сайта была долгим процессом, но сейчас индустрия перевернулась. Да и самим иллюстраторам стало в разы проще. Ведь стильный флэт-дизайн можно получить буквально за тридцать секунд. Нельзя не упомянуть о финансовой стороне вопроса — экономия времени колоссальная, а оплата подписки не сильно ударит по кошельку. Для получения подобных картинок стоит тестировать запрос:
«flat vector illustration of a team working on laptops in an office, corporate memphis style, minimal details, pastel color palette, white background, UI design elements»
Впрочем, здесь тоже присутствуют свои подводные камни. Машина периодически путает геометрию, и на финальном рендере всплывут кривые линии или слипшиеся руки. Не забудьте проверить каждый угол перед отправкой макета заказчику.
Как бороться с артефактами?
Щупальца вместо пальцев и перекошенные глазницы. Зрелище удручающее, согласитесь. Спасает ли негативный блок слов? Да, это абсолютный спасательный круг для любого инженера промтов. Хотя алгоритмы и умнеют с каждым месяцем, но сложная анатомия человека всё ещё остаётся их крайне слабым местом. В том же Stable Diffusion негативный промт — это обе стороны медали, без которых удачная генерация просто не стоит на ногах. Приходится прописывать отдельной строкой:
«ugly, deformed, poorly drawn face, extra limbs, mutated hands, bad proportions, missing fingers»
Это же железное правило касается и стилистики, когда нужно грубо отсечь лишний визуальный шум. Например, чтобы избежать эффекта дешёвого пластика в классической масляной живописи, в негатив стоит обязательно добавить токены «3d render, cgi, octane». Внести свою лепту может и параметр числового веса, когда мы принудительно занижаем значимость определённого оттенка.
Инженерный подход и махинации с кодом
Сложно ли управлять первородным хаосом пикселей? Вполне реально, если понимать скрытую математику. Искусственный интеллект всем своим цифровым нутром обожает вариативность. Буквально в две тысячи двадцать втором году пользователи довольствовались лишь базовыми текстами, а сейчас в их арсенале десятки ползунков и команд. Особый интерес параметр стилизации вызывает у тех, кто ищет нестандартные решения. Нужно отметить, что высокие значения (например, –s 750 в Midjourney) делают картинку крайне вычурной, но стремительно отдаляют её от первоначального сухого запроса. Скрупулёзный контроль над соотношением сторон также имеет огромный вес. Квадратный формат хорош для быстрых постов, а вот масштабные сцены требуют пропорций шестнадцать к девяти (–ar 16:9). Ну и, конечно же, не стоит забывать про сиды — персональные числовые идентификаторы. При удачном раскладе именно фиксация сида поможет сохранить позу персонажа, поменяв лишь цвет его куртки или фон. Смело экспериментируйте с весами токенов, скрещивайте несовместимые стили и позвольте нейросети показать то, что скрыто за пределами человеческой фантазии. Удачных вам генераций, пусть каждая попытка радует глаз идеальной композицией и безупречным светом.