Промты для генерации фотографий

В сети представлено множество сгенерированных изображений, но львиная доля из них выдаёт своё машинное происхождение с первого же беглого взгляда. Пластиковые лица, идеальная симметрия и неестественно ровное освещение быстро утомляют глаз искушённого обывателя. Добиться по-настоящему реалистичной, живой картинки — задача весьма нетривиальная, требующая понимания законов оптики и композиции. Ведь машина мыслит не визуальными образами, а токенами и их весами. Но чтобы не ошибиться в формулировках, нужно скрупулёзно подбирать лексику, превращаясь из художника в технического режиссёра.

Оптика и фокусное расстояние

Пятьдесят миллиметров. Именно с этой базовой настройки начинается сборка добротного портрета, имитирующего реальность. Многие считают, что достаточно написать слово «photorealism», но на самом деле диффузионные модели гораздо лучше реагируют на физические параметры реальных объективов. Стоит указать в строке ввода фразу:

shot on 50mm lens, f/1.8 aperture, shallow depth of field

И результат кардинально изменится в лучшую сторону. Замыленный задний фон мгновенно выделит объект, а сама картинка приобретёт нужную глубину. А если ещё вспомнить про особенности плёнки, то запрос вида «Kodak Portra 400, 35mm photography, film grain» добавит тот самый колоритный винтажный шум. Разумеется, не стоит забывать о композиционном построении кадра.

Как выбрать свет?

Свет солирует в любой визуальной композиции. Буквально десятилетие назад фотографы тратили часы на выставление тяжёлых софтбоксов, но сейчас весь этот грандиозный процесс описывается текстом. Сначала мы задаём основной рисующий источник через «cinematic lighting, dramatic shadows, high contrast». Далее следует прорисовать контуры модели контровым светом с помощью атрибута «rim light, backlighting». Отдельно стоит упомянуть блики в глазах, которые легко вызываются словом «catchlight» в основном запросе. Последним в списке идёт заполняющее освещение, смягчающее жёсткие тени — для этого прописывают «soft ambient light». Полученный таким образом объём бросается в глаза моментально. Кстати, для уличной съёмки настоящим спасательным кругом станет использование терминов «golden hour» или «overcast sky».

Кожа и несовершенства

Зрелище удручающее, когда у персонажа идеальная матовая кожа без единой поры. Чтобы избежать этой раздражающей наляпистости, нет смысла искать хитрые плагины, лучше сразу прописывать физиологические дефекты. Стоит смело добавлять в промт фразы вроде:

skin imperfections, peach fuzz, slight wrinkles, asymmetrical facial features, raw unedited photo

И всё же машина неумолимо тяготеет к глянцу. Дело в том, что алгоритмы изначально обучались на сильно отретушированных стоковых снимках. Поэтому приходится буквально заставлять нейросеть выдавать сырой материал, уводя в отрицательный промт слова «airbrushed, plastic, smooth skin, CGI, 3D render». Да и самим алгоритмам при такой жёсткой задаче проще сформировать естественный антураж.

Репортажный стиль: Динамика

С генерацией живой толпы дело обстоит сложнее. Когда в кадре оседает слишком много персонажей, их лица неминуемо превращаются в пугающую кашу. Спасает ситуацию использование конкретных типажей, занятых рутинными делами. Обязательно ли выстраивать каждого человека по стойке смирно? Вовсе нет. Запрос «candid street photography, a middle-aged man wearing a tweed jacket hurriedly crossing a wet street, holding a black umbrella, motion blur, Leica M11, 35mm» выдаст куда более внушительный и честный результат. Здесь натыкаешься на обе стороны медали. Обилие деталей тормозит процесс, но недостаток конкретики даёт ИИ слишком много свободы. Впрочем, именно случайные прохожие на заднем плане часто вносят свою лепту в создание самобытного шедевра.

Студийная предметная съёмка

Сложно ли передать фактуру еды или мелких предметов? Процесс не сложный, но весьма кропотливый. Неопытные авторы грезят сочными бургерами, но получают на выходе вычурный пластиковый макет. Здесь настоящий кладезь возможностей открывается через макрообъективы и грамотный стайлинг. Начинать нужно с определения масштаба, прописывая:

extreme macro photography, close-up shot of a single water drop on a textured green leaf, 100mm macro lens, sharp focus

Естественно, для фуд-стилистики понадобится ещё и атмосферная обвязка в виде «food photography styling, dark moody background, soft softbox lighting, steam rising». Этот щепетильный подход позволяет разложить по полочкам каждую крошку и каплю влаги на объекте.

Стоит ли смешивать эпохи?

Ложка дёгтя часто кроется в банальном избытке противоречивых вводных. Некоторые энтузиасты пытаются объединить исконно плёночный гранж с неоновым футуризмом в одном предложении. Получается откровенная казуальная каша. С одной стороны, смелые эксперименты всегда приветствуются, с другой — лучше придерживаться одной визуальной эпохи, чтобы не ломать логику рендера. Поляроидный снимок — это всегда характерные засветы, виньетка и лёгкая потеря резкости. Хотите получить именно его? Пропишите «Polaroid SX-70, instant film, light leaks, faded colors, direct flash photography». Такая изысканная эстетика всегда приковывает внимание аудитории. Тем более, что она отлично скрывает мелкие артефакты, неизбежно возникающие при генерации сложных форм.

Архитектура в кадре

В середине девятнадцатого века съёмка зданий требовала невероятной выдержки и массивных треног. Сегодня же цифровой бомонд генерирует сложнейшие концепты небоскрёбов за пару секунд. Но тут всплывут свои подводные камни. Фасады часто неконтролируемо плывут, а перспектива искажается до неузнаваемости. Выручит добавление строгих архитектурных терминов, усиленных геометрическими параметрами объектива. Кадр, выстроенный по строгим правилам композиции, снятый на широкоугольный объектив «14mm lens», дополненный параметрами «straight verticals, architectural photography, symmetrical composition», творит настоящие чудеса. К тому же, не стоит перебарщивать с эмоциональными эпитетами. Лишние прилагательные только запутают систему, отвлекая её от геометрии.

Махинации с весами токенов

Управление силой слова. Именно этот технический нюанс спасает ситуацию, когда важный элемент упорно не желает появляться на готовой картинке. Скобки и цифры внутри промта (в формате (red scarf:1.5)) позволяют принудительно усилить значимость конкретной детали. Безусловно, это серьёзное вложение сил в бесконечные тесты. Кошелёк станет легче довольно быстро, если вы платите за каждый сгенерированный пиксель на облачном сервере, поэтому разумнее тестировать куски текста на низком разрешении. А вот когда композиция полностью утверждена, можно смело запускать дорогостоящий апскейл. И всё-таки, главная изюминка рабочего запроса — его логичная, понятная машине структура.

Пейзажи и аэросъёмка

Широкие пространства требуют особого подхода к детализации горизонта. Обычные текстовые описания леса или гор часто выдают плоскую, невыразительную текстуру, лишённую масштаба. Чтобы зритель смог окунуться в атмосферу пространства, лучше отказаться от простых слов в пользу терминологии дронов. Запрос вида:

aerial photography, top-down drone shot of a winding mountain road cutting through dense pine forest, morning mist, Hasselblad L1D-20c camera, 4k resolution

заставляет модель выстраивать правильную топографию. Ведь именно высота и угол обзора задают ритм всему пейзажу. Да и самим виртуальным камерам гораздо проще отрисовать лес сверху, чем прорабатывать каждую ветку на уровне глаз.

Чёрно-белый монохром

Отсутствие цвета обнажает саму суть света и тени. Чтобы получить качественный бюджетный нуар, недостаточно просто написать «black and white». Машина выдаст серую, невыразительную массу, лишённую контраста. Настоящая магия начинается, когда в дело вступают параметры конкретных фотоматериалов. Стоит вписать «Ilford HP5 Plus 400, high contrast monochrome photography, deep blacks, harsh shadows, chiaroscuro lighting», и портрет обретает невероятную драматичность. Венчает эту композицию добавление лёгкого зерна через «heavy film grain». Неоднозначный, но крайне эффективный метод для создания глубоких, философских образов без отвлекающей цветовой мишуры.

Поиск собственного стиля требует времени, колоссальной насмотренности и готовности к постоянным ошибкам. Не бойтесь безжалостно удалять неработающие слова из строки ввода и постоянно играть с параметрами виртуальных объективов, настраивая диафрагму. Пусть каждый ваш новый эксперимент с фокусными расстояниями выдаёт потрясающий результат, а сгенерированный кадр надолго порадует аудиторию своей глубиной, честной текстурой и абсолютным реализмом. Перевоплощение завершено.