Ретушированные одиночные лица генеративные сети выдают с закрытыми глазами, однако создание группового снимка неизменно превращается в лотерею с мутациями. Искусственный интеллект отчаянно путается в анатомии, пытаясь слепить из нескольких разных людей гармоничную композицию, которая не будет пугать зрителя. Ведь львиная доля внимания алгоритма обычно уходит на центрального персонажа, оставляя остальных участников сцены с размытыми чертами или пугающими артефактами. Когда-то давно, на заре развития диффузных моделей (году эдак в две тысячи двадцать втором), получить даже двух адекватных людей в одном кадре было настоящим чудом, однако сейчас технологии шагнули далеко вперёд. Но чтобы не ошибиться, нужно выстраивать текстовую конструкцию с ювелирной точностью.
Все топовые нейросети в одной подписке! 🚀
Устали оплачивать десятки сервисов отдельно и постоянно включать VPN? Появилась платформа, которая объединяет более 90 передовых ИИ в одном окне. Пишите тексты с новейшими версиями GPT и Claude, создавайте шедевры в Midjourney и генерируйте видео в Sora и Kling. Тексты, изображения, видео и музыка — всё работает на любых устройствах без «танцев с бубном».
Попробуйте бесплатно прямо сейчас! Переходите по ссылке и получите бонусные токены для старта 👉 https://clck.ru/3RNCRL
С чего начинается генерация?
Фокусное расстояние объектива, выставленное на восемьдесят пять миллиметров, мгновенно избавляет лица от нелепых бочкообразных искажений. Базовая структура грамотного текстового запроса всегда опирается на строгие технические параметры виртуальной камеры. Сложен ли этот первый шаг? Отнюдь нет, но именно он задаёт тон всей будущей картине. Естественно, стоит сразу прописать тип освещения, отдав предпочтение мягкому студийному свету, скрывающему мелкие дефекты рендера. Наляпистость в настройках виртуального света лишь навредит результату. А если ещё вспомнить про тип плёнки, то добротный винтажный эффект добавит кадру теплоты. К слову, излишняя многословность в начале запроса ни к чему хорошему не приведёт. Опытный обыватель понимает: чем лаконичнее описана техническая база, тем послушнее ведёт себя нейросеть при отрисовке самих персонажей.
Эстетика кадра: стилистика
Задача не из лёгких. Ведь совместить гиперреализм с художественной выразительностью довольно сложно. Безусловно, многие грезят о фотографическом качестве, вбивая в строку десятки синонимов слова «реалистично», надеясь на чудо. На самом деле, лучше отказаться от бесконечных приписок про невероятное качество и шедевры. Гораздо эффективнее работает указание конкретного фотографа, прославившегося групповыми снимками, или точного названия фотографической плёнки. Дело в том, что алгоритмы изначально обучались на размеченных базах, где признанные шедевры мировой фотографии имели чёткие авторские теги. Исконно классический портрет получится куда более живым, если попросить систему сымитировать плёночное зерно. Само собой, не стоит забывать и про общую цветовую палитру. Пастельные тона или приглушённый кинематографический цвет творят чудеса, элегантно сглаживая неизбежные артефакты цифровой кожи.
Анатомия лиц
При перегрузке сцены мелкими деталями анатомия ожидаемо «плывёт», заставляя экспертов часами перебирать случайные значения зерна. Чем больше людей в кадре, тем меньше ценных пикселей достаётся каждому носу и глазу. Это же правило касается и конечностей, которые так любит искажать машина. Чтобы избежать пугающих махинаций ИИ с количеством пальцев, не нужно прописывать каждую руку. Вполне достаточно задать общую позу, облечённую в строгие закрытые костюмы, скрывающую кисти рук в карманах, дополненную мягкими тенями. К первой группе относится детальное описание отца, далее следует облик матери, ну и, наконец, внешность детей. Стоит ли скрупулёзно детализировать одежду каждого чада? Вовсе нет. Излишняя щепетильность только бьёт по бюджету токенов внимания нейросети. Лучший вариант — задать единый дресс-код для всех участников. Одинаковые вязаные свитера или простые льняные рубашки существенно снизят вероятность того, что система наденет на одного из членов семьи водолазный костюм.
Игра света: объём
Настоящий рай для алгоритма — это предсказуемые условия освещения. Нужно отметить, что направленный жёсткий свет безжалостно обнажит все изъяны генерации, превратив лица в пластиковые маски. Мягкий рассеянный свет из большого окна, падающий под углом сорок пять градусов, создаёт правильный красивый объём. К тому же, тёплые лучи заходящего солнца добавляют сцене уюта, который так необходим семейным фотографиям. Нельзя не упомянуть контровое освещение, красиво очерчивающее силуэты фигур. Грамотная игра теней часто становится тем самым фактором, который маскирует неидеальные текстуры на заднем плане. И всё же перебарщивать с драматизмом не стоит. Ведь излишне глубокие тени могут сделать лица мрачными, а глаза — безжизненными.
Как выбрать фон?
Тёмные дубовые панели старинной библиотеки. Именно они довольно часто становятся настоящим спасательным кругом при генерации сложных групповых сцен. Разумеется, выбор локации жёстко диктует атмосферу всего изображения. Огромная ошибка — помещать группу людей на фоне шумного городского пейзажа с кучей мелких хаотичных деталей. Выручит однотонная студийная циклорама или слегка размытый природный пейзаж в тёплых тонах. Впрочем, если местный бомонд требует роскоши, можно отправить семью в интерьеры викторианской эпохи. Главное — угадать с палитрой, чтобы задник не сливался с одеждой героев. Фон не должен перекрикивать солирующих персонажей. Тем более, что малая глубина резкости элегантно отделит главных героев от пёстрого заднего плана. А вот оригинальное название конкретных растений или антикварной мебели на фоне лучше опустить. Ведь нейросеть обязательно попытается прорисовать каждый листочек, пожертвовав ради этой ненужной детали чьим-то лицом.
Динамика сцены: взаимодействие
В представлении многих идеальное семейное фото выглядит как застывшая линия людей, напряжённо смотрящих прямо в объектив. Зрелище, прямо скажем, удручающее. Да и самим виртуальным персонажам будто некомфортно в этих искусственных неестественных позах. Гораздо интереснее выглядит внушительный многоуровневый сюжет. Стоит попробовать описать физическое взаимодействие: отец держит на руках младенца, мать нежно обнимает его за плечи, а старший ребёнок спокойно сидит у их ног. Такая сложная конструкция, выстроенная через последовательные действия, логично связанная пространственными предлогами, закреплённая общим направлением взглядов, позволяет алгоритму значительно лучше понять геометрию тел. Конечно, идеальная синхронизация с первого раза получается редко, однако именно лёгкая небрежность придаёт кадру колоритный живой вид. Не скупитесь на эмоциональные маркеры. Словосочетание «искренняя смешливая улыбка» сработает на порядок лучше сухой констатации счастья. Кроме того, лёгкий наклон головы друг к другу формирует невидимую эмоциональную связь между объектами генерации.
Стоит ли усложнять негатив?
Ложка дёгтя в любой генерации — это внезапные телесные артефакты. И тут на сцену торжественно выходит негативный промт. Нужен ли там текст на три гигантских абзаца? Абсолютно нет. ИИ довольно часто игнорирует слишком длинные и запутанные запреты. Буквально год назад пользователи копировали огромные полотна текста, отчаянно пытаясь откреститься от мутаций, но сейчас алгоритмы стали гораздо умнее. В негативной строке достаточно прописать базовые раздражители. Уродливые лица, лишние конечности, неестественно сросшиеся тела, обрезанные краем кадра головы. Клеймить нейросеть сотней синонимов слова «плохо» нет никакого смысла. Серьёзное вложение времени в полировку негатива не всегда окупается, а кошелёк нервных клеток станет легче. Нюанс кроется в том, что чрезмерные запреты делают картинку плоской и невыразительной. И всё же парочка точных стоп-слов защитит от откровенного брака. Ну, а если вы генерируете исторический портрет, в негатив обязательно стоит добавить современный вычурный макияж.
Финальный рендер
Запуск процесса генерации — лишь половина долгого пути. Выданная алгоритмом сырая картинка крайне редко бывает безупречной с первого взгляда. То тут, то там обязательно всплывут досадные мелкие недочёты. Особенно это касается лиц людей, расположенных глубоко на заднем плане. Вся суть в том, что при стандартном небольшом разрешении генерации дальние лица превращаются в невнятную кашу из пикселей. Спасает положение специализированный детализатор, аккуратно прогоняющий нужные участки через отдельную модель. Это тяжёлый, но невероятно эффективный способ вернуть людям нормальный человеческий облик. Вдруг натыкаешься на косоглазие у ребёнка — выделяешь область маской, бережно перерисовываешь с повышенным весом исходного запроса. Процесс не сложный, но потребует выдержки. Ни одна профессиональная работа не обходится без финального увеличения базового разрешения. Изысканный резкий кадр получается только после качественного апскейла, который добавляет реалистичную текстуру кожи и приятный микроконтраст. Тем более, что современные инструменты позволяют делать это практически в один клик. Ну и, конечно же, лёгкая цветокоррекция в графическом редакторе внесёт свою финальную лепту в общее настроение.
Вдумчивый подход к каждому слову в текстовом запросе обязательно порадует домочадцев и заказчиков качественным результатом. Эксперименты с мягким освещением, нестандартными позами и плёночной стилистикой неизбежно приведут к созданию потрясающего изображения, которое запомнится надолго. Удачи в укрощении строптивых нейросетей!