Многие обыватели наивно полагают, что машинный разум способен без труда читать мысли сквозь толщу монитора. Напишешь пару отвлечённых фраз об идущей по улице девушке, а на выходе получишь готовую обложку для модного глянца. Реальность же довольно часто подкидывает нам переломанные конечности, нелепые выкрученные стойки или абсолютно безжизненных пластиковых манекенов. Дело в том, что искусственный интеллект мыслит сухими математическими категориями, собирая итоговый визуальный образ по крошечным пиксельным крупицам из огромного массива обучающих данных. Удивительно, но чтобы не ошибиться с геометрией кадра, нужно научиться управлять виртуальным телом так же виртуозно, как кукловод управляет марионеткой.
Как выбрать ракурс?
Задача не из лёгких. Стоит ли всецело полагаться на случайность и благосклонность нейросети? Разумеется, нет. Процесс создания правильной композиции всегда начинается с глубокого осмысления сюжета. Далее следует кропотливый подбор точных английских глаголов, отвечающих за движение. Буквально десятилетие назад генерация любой осмысленной картинки казалась недостижимой магией, но сейчас планка качества взлетела до небес. К слову, львиная доля успеха здесь зависит от базового понимания человеческой анатомии. Не стоит перегружать запрос лишними деталями фактуры ткани на самых ранних этапах работы. Ведь именно жёсткий невидимый каркас определяет будущую динамику. А если ещё вспомнить про расстановку виртуальных источников освещения, то становится совершенно очевидно — работа предстоит колоссальная.
Динамика в кадре
Ветер резко раздувает полы тяжёлого пальто, пока уставший герой застыл в затяжном прыжке над мокрой мостовой. Именно так часто выглядит результат грамотно составленного, продуманного текстового описания. Передать ощущение скорости в статичном изображении бывает довольно сложно. Однако ситуацию обязательно спасёт добавление конструкций вроде «running away from camera», «jumping mid-air» или «dynamic action pose». К тому же, добротный современный промт всегда должен чётко указывать направление взгляда. Смотрит ли фигура через левое плечо («looking over shoulder») или устремила пронзительный взор прямо в объектив? Вся суть в том, что направление глаз задаёт невидимый вектор всему последующему движению мускулатуры.
Вредно ли использовать короткие запросы?
Многие новички считают лаконичные описания признаком мастерства, но на самом деле скупость слов ведёт к хаосу. Если написать просто «девушка сидит», то алгоритм неминуемо выдаст удручающее, совершенно непредсказуемое зрелище. Не скупитесь на пространные объяснения для каждой отдельной конечности. Настоящий спасательный круг — это применение так называемого негативного промта. Отрицательные значения наподобие «mutated hands», «extra limbs» или «bad anatomy» вносят свою весомую лепту в итоговую чистоту рендера. Ну и, конечно же, абстрактную «красивую позу» всегда лучше заменить на конкретную инструкцию «crossed arms over chest, standing straight».
Статика
Уверенность и покой. Вспомним старинные парижские фотосалоны конца девятнадцатого века. Из-за невероятно длинной выдержки тогдашним клиентам приходилось подолгу замирать перед объективом, опираясь на массивные скрытые подпорки. Современные цифровые портреты тоже явно тяготеют к подобной величественной монументальности. Чтобы получить солидный образ, стоит прописать «standing confident, hands behind back, formal straight posture». Естественно, такая статичная вычурная композиция требует безупречно выставленного света. И всё же, не стоит забывать про микроскопические эмоции. Лёгкий наклон головы на пять или шесть градусов творит настоящие чудеса с восприятием образа.
Примеры сидячих поз
Обывателю часто кажется невероятно скучным положение человека на стуле. Впрочем, именно здесь таится неисчерпаемый кладезь возможностей для глубокого раскрытия характера. Попробуйте сгенерировать сцену, используя метод последовательного наслоения смыслов. Герой, сидящий на самом краю табурета, тяжело опирающийся локтями на колени, смотрящий исподлобья в темноту. Солирует в этой сцене гнетущая усталость. А вот для создания взрывного напряжения отлично подойдёт промт «kneeling on one knee, ready to attack, tense muscles». Тем более, что подобные агрессивные формулировки великолепно работают в любом фэнтезийном сеттинге.
Отдых в лесу: Лежачие положения
Сложнее всего вычислительным машинам даётся физическое взаимодействие человеческого тела с плотной поверхностью земли. Тени ложатся совершенно противоестественно, пропорции искажаются до неузнаваемости. Безусловно, правильная словесная формулировка способна спасти даже самую безнадёжную ситуацию. Попробуйте аккуратно ввести в строку ввода «lying on stomach, propped up on elbows, reading an old book». Эта небольшая изюминка мгновенно добавит плоской картинке нужного объёма. Кстати, довольно часто авторы грёзят о романтичных сюжетах в высокой траве. В такие моменты в ход идут команды «laying on back, arms spread wide, looking up at the sky». Раз за разом натыкаешься на одни и те же баги, однако упорство всегда окупается сторицей.
Специфика боевых стоек
Адреналин кипит. Серьёзно бьёт по бюджету личного времени именно долгая и мучительная генерация сложных батальных сцен. Как заставить могучего воина правдоподобно замахнуться тяжёлым клинком за две миллисекунды до удара? С одной стороны, можно бесконечно перебирать сотни случайных сидов, с другой — лучше изначально установить жёсткие пространственные рамки. Специфическая фраза «mid-air roundhouse kick, dynamic combat stance, motion blur» моментально задаёт нужный агрессивный антураж. Нужно отметить, что здесь критически важна абсолютная точность. Скрупулёзный подход к описанию изгиба позвоночника («arched back») убережёт финальный результат от эффекта деревянной куклы. Да и самим нарисованным бойцам будет комфортнее существовать в логически выверенном физическом пространстве.
Интимность и закрытые позы
Иногда драматический сюжет настоятельно требует демонстрации меланхолии или глубокой душевной уязвимости. Облачиться в непробиваемую броню отчуждения виртуальному актёру поможет команда «hugging knees to chest, curled up in a ball, fetal position». Подобные тонкие запросы бьют предельно точно в цель. Само собой, освещение здесь не должно быть слишком ярким. Добавляем в конец строки «dim cinematic lighting, harsh shadows», и картина сразу же оживает. Заслуживает истинного уважения тот терпеливый автор, который умеет передавать надрывное настроение без открытой демонстрации лица. Спрятанный в дрожащих ладонях профиль («face hidden in hands») парадоксальным образом улучшает общую композицию.
Взаимодействие с предметами
Тонкие пальцы судорожно сжимают рукоять револьвера. Это всегда очень больная тема для преданных любителей нейросетей. Вся суть в том, что посторонние предметы постоянно врастают прямо в плоть на сгенерированных холстах. Чтобы минимизировать эти странные махинации искусственного интеллекта, необходимо описывать хват максимально подробно. Запрос «holding coffee cup with both hands, gentle finger grip» сработает в десятки раз лучше обычной сухой констатации факта. Кроме того, положение ног при опоре на трость («leaning on a wooden cane, one leg crossed over the other») требует обязательного уточнения точки опоры. Ведь иначе несущая конечность рискует попросту раствориться в пиксельной пустоте.
Сложно ли стилизовать?
Можно ли быстро добиться того самого модного журнального глянца? Да, но придётся немного попотеть над подбором лексики. Беспощадная фэшн-индустрия десятилетиями диктует свои суровые визуальные постулаты. Здесь всегда царят изломанные острые линии и подчёркнуто высокомерные взгляды. Если вписать в консоль «high fashion pose, hand on hip, tilt head back, leaning against brick wall», вы гарантированно получите классическую обложку. Нельзя не упомянуть, что излишняя наляпистость гардероба в таких случаях лишь вредит. Одежда должна быть описана лаконично, но фактурно. Ведь именно колоритный самобытный наряд диктует пластику будущих движений.
Ракурсы
В сети постоянно всплывают миллионы совершенно одинаковых лиц, снятых строго анфас. Чтобы ваш личный шедевр навсегда не затерялся в этом бесконечном визуальном шуме, необходимо смело экспериментировать с положением виртуальной камеры. Точка обзора, установленная предельно низко у самой земли («low angle shot, looking up at subject»), мгновенно придаёт даже хрупкой фигуре внушительный эпический вид. А вот холодный взгляд сверху вниз («high angle shot, extreme foreshortening») заставляет мощного персонажа казаться маленьким и беззащитным. Тем более, кардинальная смена ракурса автоматически заставляет алгоритм менять физику тела. Ну, а добавление термина «contraposto» добавит лёгкой аристократичной небрежности.
Групповые портреты
Настоящий цифровой хаос. Когда в одном тесном кадре появляются два или три человека, математические модели начинают буквально сходить с ума. Руки переплетаются в жуткие гордиевы узлы, а лишние ноги растут прямо из чужих шей. Лучше отказаться от сомнительной идеи сгенерировать толпу без строгого пошагового контроля. Разложите всю сложную композицию по полочкам. Точная фраза «two people standing back to back, one holding a gun, the other looking away» даёт алгоритму чёткое разделение ролей. Это же незыблемое правило касается любых романтических сцен. Венчает правильный подход точное указание того, кто именно совершает действие. Формулировка «man wrapping arms around woman’s waist from behind» звучит как надёжный план действий.
Поиск идеального баланса всегда требует огромных затрат времени, энергии и железного терпения. Каждое новое вписанное слово необратимо меняет геометрию виртуального пространства, заставляя послушные пиксели складываться во всё новые и новые удивительные формы. Не бойтесь совершать нелепые ошибки при написании текстовых команд. Собирайте самые удачные словесные связки в отдельный блокнот, анализируйте чужие шедевры и всегда помните, что обе стороны медали одинаково важны для достижения гармонии. Пусть каждая новая генерация неизменно радует домочадцев и подписчиков безупречной анатомической точностью, а сам процесс подбора слов станет для вас увлекательной игрой. Удачи в создании грандиозных цифровых полотен, красота которых запомнится надолго!