Промты для ии аниме

Множество сгенерированных артов представлено сегодня в сети, где грань между ручной рисовкой и машинным кодом стирается почти полностью. Буквально десятилетие назад создание качественного японского мультипликационного кадра требовало недель кропотливой работы целой студии, но сейчас нейросети выдают готовый результат за три миллисекунды. Естественно, обыватель видит лишь красивую картинку, тогда как опытный инженер понимает вес каждого отдельного слова. Плохой сон – это не всегда ночные кошмары, иногда это кривые пальцы и слившиеся воедино текстуры волос на очередном рендере. И всё же махинации с текстовыми запросами требуют скрупулёзного подхода, ведь львиная доля успеха зависит от правильной формулировки. Но чтобы не ошибиться, нужно чётко понимать логику машины.

Базовая архитектура

Синтаксис решает всё. Зачастую новички сваливают в кучу десятки прилагательных. Надеясь на чудо. Но есть и минусы у такого хаотичного подхода. Слишком длинный текст банально распыляет внимание алгоритма, из-за чего мелкие детали бесследно исчезают в цифровом шуме. С чего начинается выбор? С определения фундамента. Один из самых популярных видов – использование тегов в стиле Danbooru, где слова разделяются запятыми, а их вес регулируется скобками.

Настройка качества

Далее следует блок качества, включающий параметры вроде masterpiece, best quality или highres. К слову, именно эти базовые маркеры задают планку, отсекая мыльные текстуры и общую наляпистость. Следующий важный критерий – описание самого персонажа, вписанное в строку следом за качеством. Отдельно стоит упомянуть негативный запрос, куда отправляются знаменитые bad anatomy, missing fingers и прочий визуальный мусор. Последним в списке идёт технический блок, дополненный указанием соотношения сторон, сшитый с версией алгоритма. Разумеется, не стоит забывать о приоритете слов в начале строки. Токены, поставленные первыми, перетягивают на себя основное внимание алгоритма.

Как выбрать стиль?

Тень, брошенная от ветки сакуры на лицо героини, должна подчиняться законам выбранного жанра. В понимании многих аниме выглядит однородно, но на самом деле разница между работами студий просто грандиозная. Поэтому нет смысла просто писать anime style. Гораздо эффективнее опираться на конкретных творцов или производственные компании. К первой группе относится эстетика Studio Ghibli, которая творит чудеса при создании уютных, детализированных фонов с обилием зелени. Во-вторых, для динамичных боевых сцен с яркими спецэффектами отлично подойдёт упоминание Ufotable. Ну и, наконец, меланхоличный атмосферный рисунок легко получить, сославшись на Макото Синкая.

Одежда и детали: стилистика

Безусловно, смешивать эти теги нужно крайне осторожно. Ведь машина может выдать совершенно неоднозначный результат, если попытаться скрестить киберпанк с викторианской романтикой в одном котле. Да и самим моделям комфортнее работать с чистыми, не конфликтующими стилистическими указаниями. Тем более, что правильный антураж сам по себе формирует нужную атмосферу без дополнительных костылей. Правильно заставить героя облачиться в сложный наряд бывает довольно сложно. Дело в том, что нейросети часто путаются в многослойных текстурах, превращая их в бесформенное пятно. Выручит точное, последовательное описание гардероба.

Специфика гардероба

Изначально задаётся верхняя одежда, дополненная мелким орнаментом, вырезанная из плотного материала, украшенная золотой нитью. Затем прописываются аксессуары вроде очков, лент в волосах или массивных серёг. Кстати, двойные прилагательные вроде плотный хлопковый материал работают здесь просто великолепно. Не скупитесь на упоминание фактуры ткани. Кожа, шёлк или грубый лён воспринимаются алгоритмами по-разному, напрямую влияя на финальный рендер. А вот если нужно создать школьную униформу, стоит ограничиться базовыми терминами вроде serafuku или gakuran. Огромный массив данных оседает в памяти ИИ именно по этим тегам, поэтому изобретать велосипед точно не стоит.

Стоит ли усложнять освещение?

Да, но результат потребует терпения. Именно свет превращает плоский контурный рисунок в добротный, объёмный кадр. Когда-то давно энтузиасты довольствовались стандартной заливкой, но сейчас в ходу сложные кинематографические приёмы. Начинать эксперименты лучше всего с тегов cinematic lighting или dramatic shadows. Это удобно. Ведь объект не будет выглядеть плоской картонкой на фоне задника. Особый интерес вызывает контровое освещение, обозначаемое как backlighting.

Цветовая палитра: контрасты

При таком сценарии вокруг силуэта появляется светящийся ореол, что выглядит просто впечатляюще. Впрочем, не стоит перебарщивать с контрастностью. Слишком густые тени могут скрыть важные нюансы, над которыми вы так долго корпели в текстовой строке. Для достижения мягкого, рассеянного света в дневных сценах отлично подойдёт параметр natural lighting. Ну, а ночной город потребует неоновых бликов и точечных источников света. И всё-таки главное – угадать с палитрой. Правильный подбор оттенков вносит огромную лепту в восприятие изображения. Искусственный интеллект отлично понимает теорию цвета, если задать ему верные ориентиры.

Вредно ли завышать вес токенов?

Многие грезят о том, что расстановка огромного количества скобок вокруг нужного слова гарантированно заставит алгоритм нарисовать задуманное, но на самом деле это прямой путь к искажениям. Пережатый тег буквально ломает композицию.

Цвет глаз может расползтись по всей одежде, а колоритный персонаж превратится в сюрреалистичное месиво. Поэтому повышать значимость отдельных слов стоит крайне деликатно, прибавляя не более одной десятой доли за раз. Это же правило касается и отрицательных весов в негативном промте. Слишком сильный запрет на определённые цвета часто приводит к тому, что изображение становится блёклым и безжизненным. Тем более, современные системы прекрасно понимают естественный язык и не требуют агрессивного форсирования. Ложка дёгтя кроется лишь в том, что каждая архитектура реагирует на синтаксис по-своему.

Ошибки генерации: анатомия

Холодный блеск меча, зажатого в неестественно изогнутых пальцах, моментально рушит всю магию. Проблема прорисовки кистей рук и ступней давно стала притчей во языцех среди бомонда нейрохудожников. Конечно, встроенные плагины помогают, однако полностью полагаться на них опрометчиво. Лучше отказаться от вычурных поз, если нет возможности использовать инструменты жёсткого контроля. Выручит классический портретный ракурс. Зачастую достаточно указать cowboy shot или upper body, чтобы отсечь проблемные зоны. Если же ростовой портрет необходим, стоит попытаться скрыть руки.

Работа в Stable Diffusion: генерация

Герой с ладонями, спрятанными в карманы куртки, заведёнными за спину, скрещёнными на груди, выглядит естественно и не вызывает отторжения. К тому же, правильное кадрирование само по себе выступает мощным художественным приёмом. Ракурсы from below или from above добавляют динамики, заставляя зрителя по-новому взглянуть на привычную сцену. Зрелище удручающее, когда шесть пальцев портят самобытный арт. Статичные куклы довольно быстро утомляют. Настоящий кладезь для создателя контента – это сцены в движении. Волосы, развевающиеся на ветру, летящие лепестки, брызги воды или искры от столкновения клинков.

Динамика в кадре

Все эти элементы вписываются в запрос глаголами действия или герундием. И всё же заставить персонажа взаимодействовать с окружением крайне трудно. Нейросеть тяготеет к разобщённости объектов. Чадо может стоять рядом со стулом, но посадить его на этот самый стул – задача не для слабонервных. Приходится разложить по полочкам каждую деталь позы, чтобы персонаж твёрдо стоял на ногах. Спасательный круг здесь – использование референсных исходников. Изображение, поданное вместе с текстовым описанием, задаёт жёсткий каркас. Вес такого референса (обычно около 0.6) нужно регулировать аккуратно, чтобы он не подавил стилистику самого промта.

Постобработка

Бьёт по бюджету времени это изрядно. Зато избавляет от десятков неудачных попыток и потраченных нервов. Даже самый изысканный запрос редко выдаёт шедевр с первого раза. Огрехи обязательно всплывут при внимательном рассмотрении. С одной стороны, можно бесконечно крутить сид, с другой – гораздо проще исправить мелкий недочёт точечной перерисовкой. Этот процесс не сложный, но кропотливый. Выделяется проблемная зона, пишется короткий уточняющий текст именно для этого участка, и программа аккуратно латает дыру. Нужно отметить, что генерация во внушительном разрешении изначально – плохая идея.

Финальные штрихи

Текстуры могут задублироваться, превратив одного героя в сиамских близнецов. Гораздо логичнее создать картинку среднего размера, а затем пропустить её через апскейлер с небольшим добавлением шума. Исконно мелкие детали при этом прорисуются чётче, а общая композиция останется нетронутой. Окунуться в эти тонкости придётся каждому. Оттачивать мастерство взаимодействия с алгоритмами можно бесконечно, открывая для себя всё новые связки слов и скрытые подводные камни. Терпение в подборе параметров обязательно окупится впечатляющими визуальными историями. Удачи в бесконечном поиске идеального стиля, пусть каждый сгенерированный кадр станет отличным решением для ваших самых смелых проектов.