В сети сегодня циркулирует колоссальное количество текстовых инструкций, обещающих выдать визуальный шедевр по одному щелчку мыши. Обыватель часто верит, что достаточно скопировать длинную вереницу разрозненных слов, чтобы хитроумный алгоритм мгновенно выдал нужный результат. Однако на практике большинство таких наспех слепленных конструкций выдаёт откровенный брак с перекошенными лицами, сломанными пальцами или нарушенной перспективой. Ведь нейросети крайне щепетильны к порядку лексем и техническим параметрам. Поэтому перед началом серьёзной работы желательно отказаться от слепого заимствования и научиться собирать текстовые блоки осознанно.
Как выбрать стиль?
Начинать работу всегда приходится с определения базового визуального кода. Буквально пару лет назад мы радовались любой сгенерированной картинке, но сейчас требования заказчиков возросли до небес. К слову, львиная доля успеха зависит от правильного указания камеры и типа плёнки. Хороший результат даёт упоминание конкретных объективов, снятых на тридцатимиллиметровую плёнку, дополненных зернистостью легендарного Кодака. Кодак Портра четыреста появилась на рынке в тысяча девятьсот девяносто восьмом году, однако именно сейчас алгоритмы сделали её главным инструментом для создания тёплых тонов. Пример рабочего запроса для стрит-фотографии выглядит так:
уличный портрет пожилого мужчины, курящего трубку, Нью-Йорк восьмидесятых, снято на Leica M6, объектив пятьдесят миллиметров, диафрагма один и восемь, Kodak Portra четыреста, кинематографичный свет, гиперреализм.
Разумеется, алгоритм может проигнорировать часть вводных, выдав слишком чистую, глянцевую картинку. В таком случае спасёт добавление параметров шума и виньетирования. Ну и, конечно же, не стоит забывать про соотношение сторон, прописывая его в самом конце строки специальным тегом.
Архитектура кадра
Прямо из центра композиции на зрителя должен смотреть главный объект. Это же базовое правило фотографии работает и внутри искусственного интеллекта. Построить правильную геометрию довольно сложно, если не задать машине строгие рамки. Использовать лучше всего терминологию профессиональных операторов. Начинается процесс с указания крупности плана, продолжается выбором ракурса снизу или сверху, завершаясь выставлением фокусного расстояния. Например, добротный коммерческий запрос собирается из таких элементов: макросъёмка наручных часов, чёрный матовый фон, студийное освещение, контровой свет, отражения на стекле, фокус на циферблате, восьмидесятимиллиметровый макрообъектив, сверхвысокая детализация. Конечно, иногда всплывают артефакты в виде лишних стрелок, однако лечится это точечным инпейнтом (перерисовкой отдельных зон). Да и сама композиция часто тяготеет к центральной симметрии, если не прописать правило третей принудительно.
Портретная съёмка: Детали
Текстура кожи притягивает взгляд. Если забыть про эту важную деталь, лицо превратится в пластиковую маску, лишённую жизни. Специфика генерации лиц такова, что машины изначально обучались на сильно отретушированных снимках. А вот чтобы получить живого, настоящего человека, придётся изрядно попотеть. К тому же, не стоит скупиться на описание мелких дефектов. Веснушки, мимические морщинки, лёгкая асимметрия — всё это творит чудеса. Рабочий изысканный концепт можно сформулировать следующим образом:
крупный план лица молодой девушки с рыжими волосами, лёгкий румянец, естественные несовершенства кожи, открытые поры, мягкий дневной свет из окна, глубокое боке, снято на Canon EOS R5, восьмидесятимиллиметровый объектив, f/1.2, фотореализм.
Впрочем, ложка дёгтя кроется в генерации глаз. Довольно часто зрачки смотрят в разные стороны, что бьёт по бюджету времени, затрачиваемому на последующую ретушь. На самом деле, лучше сразу закладывать пару минут на правку радужки в стороннем редакторе.
Пейзажи и природа
Огромные массивы гор, окутанные утренним туманом, выжженные солнцем прерии, заснеженные шапки вулканов. Создание масштабных сцен требует совершенно иного подхода к формированию текста. Дело в том, что нейросеть любит нагромождать детали, создавая визуальную наляпистость там, где нужен минимализм. И всё же обуздать эту махину вполне реально. Нужно отметить, что спасательный круг здесь кроется в строгом указании времени суток и погодных условий. Пример добротного ландшафтного запроса: панорамный вид на норвежский фьорд на рассвете, драматичные тучи, густой туман над водой, отражение скал в озере, широкий угол, шестнадцатимиллиметровый объектив, диафрагма f/8, пейзажная фотография, эстетика National Geographic, восьмикиловаттное разрешение. Естественно, цвета иногда получаются слишком кислотными. Чтобы убавить насыщенность, стоит использовать отрицательные веса для слов вроде «яркий» или «перенасыщенный». Тем более, что приглушённые, сдержанные тона всегда выглядят дороже.
Сложно ли контролировать освещение?
Да, это самый капризный элемент генерации. Без правильного света любая, даже самая проработанная сцена, становится плоской и совершенно неинтересной. Опытные криэйторы прекрасно знают, что свет солирует в любой композиции, задавая настроение. Выручит грамотное использование профессиональных терминов голливудских осветителей. Например, запрос на атмосферную сцену строится так: силуэт женщины в дверном проёме, неоновое освещение киберпанка, синий и маджента, жёсткие тени, кинематографичная цветокоррекция, объёмный свет, снято на плёнку Cinestill восемьсот. Безусловно, машина периодически пытается добавить лишние источники света там, где они не нужны. Это связано с тем, что алгоритм стремится математически высветлить все тёмные участки кадра. Однако жёсткое указание «только один источник света» иногда помогает дисциплинировать нейросеть. Нельзя не упомянуть, что использование аббревиатур вроде HDR часто портит объём, убивая естественные тени напрочь.
Предметная фотография
Стеклянный флакон духов медленно погружается в воду. Вокруг разлетаются брызги, а направленный луч преломляется сквозь толщу жидкости. Подобные махинации с предметкой требуют ювелирной точности лексикона. Скептики считают, что вещи для каталогов лучше снимать вживую, но на самом деле машины давно научились выдавать журнальное качество. Главное — скрупулёзно разложить по полочкам каждую мелочь. Вот пример колоритного запроса для рекламы:
флакон дорогого парфюма на куске необработанного чёрного сланца, капли росы на стекле, минималистичный фон, студийный свет, боковая подсветка, макрообъектив сто миллиметров, коммерческая фотография, рендеринг высокого разрешения.
Кстати, именно стекло, жидкости и блестящий металл удаются алгоритмам лучше всего. Ведь машина прекрасно понимает физические законы преломления лучей. А если ещё вспомнить про возможность генерации реалистичного дыма, то кошелёк заказчика точно станет легче при виде финального рендера.
Отрицательные запросы
Многие новички пренебрегают блоком негативного промта. А зря. Именно он отсекает визуальный мусор и откровенный брак. Не стоит перегружать позитивную часть, пытаясь описать то, чего в кадре быть категорически не должно. Гораздо эффективнее отправить все нежелательные элементы в подвал формы генерации. К первой группе таких стоп-слов относится перечисление анатомических уродств, далее следуют технические артефакты вроде водяных знаков или размытия, последним в списке идёт стилистический мусор наподобие «аниме» или «векторная графика». На практике внушительный негативный промт для реалистичного портрета собирается из таких тегов:
иллюстрация, живопись, рисунок, мыльное изображение, лишние конечности, деформация пропорций, текст, логотип, пластиковая кожа, пересвет.
Безусловно, стопроцентной гарантии отсутствия ошибок это не даёт. Машина всё равно периодически подкидывает сюрпризы в виде шестого пальца. Но вероятность катастрофы снижается в разы.
Стоит ли использовать длинные тексты?
Вовсе нет. Раздутые до неимоверных размеров простыни текста только сбивают электронный мозг с толку. Начинается жуткая путаница, смыслы наслаиваются друг на друга, и на выходе получается невразумительная каша. В представлении многих обывателей, чем больше слов напишешь, тем лучше получится результат. Опровержение этому мифу кроется в самой архитектуре нейронных сетей, которые имеют жёстко ограниченное окно внимания. Оптимальный размер запроса редко превышает пятьдесят-семьдесят слов. Важное всегда нужно выносить в самое начало. Сначала идёт описание объекта, дополняется оно окружением, завершается техническими параметрами камеры и света. Не стоит тратить ценные токены на поэтические описания души персонажа, бездушная программа этого попросту не поймёт. Лучше сосредоточиться на сухих визуальных фактах. Тем более, что лаконичность заставляет автора чётче формулировать свои собственные мысли.
Подготовка к отправке
Заварив крепкий чай, садишься перед пустым полем ввода и отчётливо понимаешь, что свежих идей нет. Знакомое чувство.
Искушённый практик никогда не пишет промты из головы, полагаясь лишь на мимолётное вдохновение. Всегда используется личная база референсов и заранее заготовленные лексические формулы, собранные долгими вечерами. Обязательно заведите отдельный текстовый файл с удачными связками параметров. Самобытный микс старого объектива и просроченной плёнки, найденный методом проб и ошибок, быстро становится настоящей изюминкой будущих проектов. Да и постоянный анализ чужих генераций в открытых галереях великолепно помогает пополнять словарный запас новыми терминами. Спешка на этом этапе абсолютно неуместна. Процесс создания изображения — это полноценная творческая работа, требующая вдумчивости и колоссальной насмотренности. Точно подобранные слова обязательно окупятся сторицей, а готовое изображение порадует домочадцев и впечатлит самых строгих критиков.