Промт для фото love is

Знакомый с детства вкус жвачки давно забылся, но знаменитые бумажные вкладыши с пузатыми человечками до сих пор вызывают у людей тёплую ностальгию. Буквально пару десятилетий назад эти маленькие картинки бережно коллекционировали, а сейчас их эстетику массово пытаются воссоздать с помощью генеративных сетей для свадебных приглашений или креативных подарков. Обыватель часто думает, что достаточно написать пару слов, и машина сама всё красиво нарисует, выдав идеальную ретро-картинку. Однако на самом деле генерация того самого винтажного стиля требует понимания механики работы диффузионных моделей. Но чтобы не ошибиться, нужно правильно подобрать веса и токены. А начать стоит с деконструкции базовой визуальной структуры этого культурного феномена.

С чего начинается стилизация?

Задача не из лёгких. Ведь современный искусственный интеллект тяготеет к фотореализму или детализированному 3D, безжалостно отсекая примитивную двухмерную графику. Сложно ли удержать алгоритм в рамках простых линий? Да, но добротный результат того стоит. Исконно британский комикс, придуманный новозеландской художницей Ким Гроув, строился на строгих постулатах минимализма. Дело в том, что колоритные персонажи лишены сложных теней, их лица нарочито схематичны, а фоны всегда оставлены полупустыми. Поэтому не стоит перегружать запрос лишними деталями вроде сложного освещения или гиперреалистичных текстур. Ограничиться лучше базовыми определениями: line art, simple cartoon, flat colors, minimalist drawing, vintage comic style 1990s. К слову, львиная доля успеха зависит именно от упоминания винтажной комиксовой стилистики девяностых, так как именно на этом внушительном массиве данных обучались многие генераторы.

Архитектура базового запроса

Голова слегка непропорциональна телу, глаза обозначены простыми точками, а волосы лежат густыми однотонными пластами. Это же и есть та самая изюминка визуального самобытного языка, который предстоит описать алгоритму. Чтобы воссоздать этот олдскульный антураж, стоит использовать инструментальный подход к формированию текста. Сначала прописывается стиль отрисовки, заданный техническими тегами, далее следует подробное описание главных героев, наделённых характерными чертами, а завершается конструкция указанием светлого фона. В основе может лежать конструкция, начинающаяся с описания милой мультяшной пары в стиле вкладыша от жевательной резинки. Затем мы добавляем указание на мальчика с растрёпанными тёмными волосами и девочку со светлыми локонами. Разумеется, нейросеть может выдать излишне откровенный результат на классическое слово «naked», поэтому иногда стоит заменить его на минималистичную простую одежду. Ну и, конечно же, не забываем про цветовую палитру.

Цветокоррекция

Зрелище удручающее. Именно так можно описать ситуацию, когда нейросеть выдаёт кислотные вычурные цвета или изысканный градиент вместо мягкой акварельной заливки. Цвета в оригинальных комиксах никогда не были кричащими, да и сложный рендер там отсутствовал. Это связано с тем, что дешёвая типографская краска на глянцевой бумаге физически не могла выдавать глубокий контраст. Чтобы сымитировать этот эффект, в промт стоит внедрять спецификаторы приглушённых оттенков, пастельной палитры, мягкой акварельной текстуры и паттерна полутоновых точек. К тому же, не стоит забывать про соотношение сторон. Оригинальные вкладыши имели почти квадратный формат. Тем более, что в нижней части картинки всегда должно оставаться белое пространство для размещения текста.

Как добиться портретного сходства?

Обязательно ли обучать собственную модель ради одной картинки? Вовсе нет. Хотя многие грезят об идеальном сходстве и готовы тратить часы на тренировку сетей, такой подход серьёзно бьёт по бюджету времени. Выручит грамотное использование модуля ControlNet (в связке со Stable Diffusion) или адаптеров изображений. В представлении экспертов именно связка анализаторов контуров и глубины даёт максимальный контроль над позами, позволяя заставить персонажей облачиться в нужную одежду или посадить их на знаменитую скамейку. С одной стороны, мы ограничиваем фантазию алгоритма жёсткими рамками исходного фото, с другой — получаем предсказуемую композицию, где персонаж уверенно стоит на ногах. Не скупитесь на выставление правильных весов для референсов, ведь именно щепетильный подход к ползункам творит чудеса. А если ещё вспомнить про DALL-E, то там процесс обстоит иначе: придётся скрупулёзно описывать причёски и форму носов исключительно текстом.

Работа в Stable Diffusion

Настоящий кладезь возможностей открывается при использовании локальных сетей. Здесь цифровой бомонд предпочитает использовать специализированные надстройки (LoRA), натренированные исключительно на картинках Ким Гроув. Слой шума оседает на холсте гораздо точнее, если в позитивный промт внести токены шедевра, лучшего качества, плоских цветов и чиби-стилистики. Однако на этом махинации не заканчиваются. В негативный блок обязательно добавляются слова, запрещающие реализм, объёмное освещение и анатомические искажения. Бросается в глаза то, что при правильной настройке негативного промта исчезает пугающая наляпистость фона. Искусственный интеллект панически боится пустоты и постоянно пытается впихнуть на задний план деревья или мебель. Жёсткое указание на отсутствие облаков, пейзажей и деталей интерьера станет настоящим спасательным кругом.

Стоит ли писать текст внутри сети?

Сложно ли сразу сгенерировать идеальную философскую надпись? Безусловно, современные генераторы научились неплохо справляться с типографикой. Однако с кириллицей дело обстоит гораздо сложнее, да и подобрать тот самый округлый шрифт машине удаётся редко. Многие считают, что лучше сразу прописывать заветную фразу в запросе, но на самом деле это палка о двух концах. На практике такие попытки часто приводят к искажению самих персонажей из-за того, что сеть отвлекается на рендеринг букв. Гораздо эффективнее добавить в промт фразу о пустом белом пространстве внизу и белой рамке вокруг изображения. А вот саму надпись и характерное сердечко логичнее наложить позже в любом графическом редакторе. Это сэкономит массу нервов и позволит выбрать идеальную фразу, подходящую под конкретную ситуацию.

Ведь ложка дёгтя в виде кривой буквы может испортить всё впечатление.

Готовые формулы для работы

Перейдём к конкретике и попытаемся разложить по полочкам готовые текстовые конструкции. Первый надёжный вариант для популярной сети Midjourney начинается с указания стиля комикса «Love is», за которым следует описание милого мультяшного мальчика с тёмными волосами и девочки с блондинистыми локонами, сидящих на деревянной скамейке под одним зонтом. Далее прописываются технические параметры: простые линии, плоские пастельные цвета, минимальное количество деталей, белый фон, ретро-эстетика и стилистика обёртки от жвачки девяностых годов. Завершается всё параметром соотношения сторон четыре к пяти и низким значением стилизации. Следующий вариант адаптируется для создания зимнего сюжета, где действие меняется на лепку снеговика в одинаковых красных шарфах. Последним в нашем арсенале идёт развёрнутый нарративный запрос для DALL-E, где придётся составить связный абзац на английском языке, детально описывающий обнимающуюся пару на кристально чистом белом фоне с обязательной пустотой в нижней части холста.

Ошибки и артефакты

Всплывут ли проблемы при первых попытках? Естественно. Самый неприятный нюанс заключается в прорисовке лиц. Из-за чрезмерной простоты стиля диффузионки часто «теряют» глаза или рисуют пугающие реалистичные рты на схематичных головах. Поэтому в запрос стоит добавить уточнения про глаза-точки, простую улыбку и минималистичные черты лица. Это же правило касается и кистей рук. Лишние пальцы непременно дадут о себе знать, если не скрыть их в карманах или за спиной, прописав соответствующие действия в строке ввода. Серьёзное вложение сил в отладку этих мелочей не сильно ударит по кошельку, если вы используете локальные бесплатные сети, но при работе с платными подписками кошелёк станет легче довольно быстро. Тем более, что обе стороны медали предполагают неизбежные эксперименты.

Подбор идеальных слов для такой специфической графики требует терпения и множества итераций. Но каждый неудачный рендер лишь приближает к пониманию того, как мыслит машина. Стоит лишь немного поиграть с весами токенов, как упрямая нейросеть сдастся и выдаст тот самый трогательный винтажный шедевр. Удачи в генерации самых уютных сюжетов, пусть полученный результат с головой погрузит в ностальгию и запомнится надолго!