Многие, кто только начинает осваивать мир нейросетей, грезят о создании идеальных цифровых изображений, но часто натыкаются на причудливые и даже пугающие результаты. Особенно это касается генерации групповых портретов, где вместо счастливых лиц на экране появляются шестипалые кошмары, асимметричные черты и прочие артефакты, способные надолго отбить желание экспериментировать. В представлении обывателя, ИИ должен понимать простые человеческие команды с полуслова, но на деле всё обстоит несколько сложнее. Но чтобы не ошибиться и не тратить драгоценные попытки генерации впустую, нужно разобраться в искусстве составления правильного запроса.
Что такое промт и как он работает?
Давайте сразу разложим всё по полочкам. Промт (от английского prompt — «побуждение», «команда») — это текстовое описание, которое вы даёте нейросети для создания изображения. Это не просто набор ключевых слов, а своего рода техническое задание для цифрового художника. Именно от его точности и детализации напрямую зависит, получите ли вы фотореалистичный шедевр или нечто, что вызовет лишь недоумение. Ведь это же не магия, а сложный алгоритм, который буквально «рисует» по вашим инструкциям. Поэтому стоит относиться к составлению запроса как к написанию сценария для очень короткого фильма, где важна каждая деталь.
Справиться с этой задачей помогает понимание того, как машина интерпретирует слова. Для неё нет разницы между «красивая девушка» и «девушка с симметричными чертами лица, чистой кожей и выразительными глазами». Первый запрос — лотерея. А вот второй уже даёт конкретные указания, снижая вероятность появления брака. В арсенале нейросетей, особенно таких как Midjourney или Stable Diffusion, есть колоссальная база данных из миллионов изображений, и ваша задача – помочь алгоритму найти нужные референсы и правильно их скомбинировать.
Базовая структура запроса: Детали решают всё
Задача не из лёгких. Но её можно упростить, если придерживаться определённой структуры. Не стоит вбрасывать в промт хаотичный набор мыслей. Хотя и строгих правил нет, опытным путём была выведена довольно эффективная формула, помогающая добиваться предсказуемого результата. Во-первых, это объект или субъект съёмки. Нужно скрупулёзно описать, кто или что должно быть в центре кадра. Далее следует действие — что именно делают персонажи. Не менее важен и антураж, то есть фон, окружение и общая атмосфера сцены. Отдельно стоит упомянуть стиль, в котором вы хотите получить изображение: это может быть фотография, картина маслом, акварельный рисунок или даже кадр из аниме. Ну и, наконец, технические параметры, которые включают в себя тип камеры, объектив, освещение и соотношение сторон.
К примеру, вместо короткого «семья на пикнике» стоит написать нечто более развёрнутое: «Счастливая семья из четырёх человек смеётся, сидя на клетчатом пледе в летнем парке, залитом тёплым солнечным светом». Такой подход сразу отсекает львиную долю нежелательных интерпретаций. Нейросеть уже понимает количество людей, их эмоцию, место действия и характер освещения. Это, безусловно, требует больше времени, но результат того стоит. Всегда помните: чем больше конкретики, тем меньше у ИИ пространства для «творческих» махинаций.
Как нейросеть «видит» группу людей?
Особый интерес вызывает главная проблема — корректное изображение нескольких человек в одном кадре. Почему так происходит? Всё довольно просто. Дело в том, что когда вы просите нейросеть нарисовать, скажем, «троих друзей», она пытается скомпоновать три отдельных образа в единое целое. В процессе этой «склейки» часто и всплывают те самые подводные камни: лишние конечности, неестественные позы, искажённые лица на заднем плане. Алгоритм может «забыть», какому именно персонажу принадлежит рука или нога, и пририсовать её соседу.
Чтобы минимизировать эти риски, стоит описывать группу не как единое целое, а как совокупность отдельных индивидов с их характеристиками. Например, не просто «команда бизнесменов», а «группа из пяти человек в деловых костюмах: трое мужчин и две женщины, уверенно стоящие в современном офисном интерьере». Можно пойти ещё дальше и дать краткую характеристику каждому: «Мужчина в центре с седыми волосами, рядом с ним молодая женщина в очках». Такие уточнения помогают нейросети сфокусироваться и проработать каждого персонажа более тщательно. Да, процесс не самый быстрый, но он творит чудеса.
Готовые промты: от простого к сложному
Теория — это хорошо, но без практики она мертва. Давайте рассмотрим несколько конкретных примеров, которые можно взять за основу и адаптировать под свои нужды. Каждый из них нацелен на получение добротного, качественного результата.
Начнём с классического семейного фото. Задача — получить тёплый, живой и эмоциональный снимок. Вместо сухого «семья в парке» используем более детальный промт:
Photorealistic shot of a joyful family of four — father, mother, a 7-year-old boy and a 5-year-old girl — laughing together on a picnic blanket in a sun-drenched park, surrounded by green grass and trees. Soft natural afternoon lighting, candid moment. Shot on a Canon EOS 5D Mark IV with a 50mm f/1.4 lens, cinematic quality, high detail.
Здесь мы указали всё: состав семьи (даже примерный возраст детей), их эмоцию, окружение, тип освещения и даже конкретную фототехнику для достижения нужного эффекта.
Теперь представим себе другую ситуацию: встреча друзей в уютном кафе. Атмосфера здесь совершенно иная. Требуется передать расслабленность и дружеское общение. Промт может выглядеть так:
A group of three diverse friends in their late 20s sitting at a wooden table in a cozy, dimly lit coffee shop. They are chatting and smiling, with cups of cappuccino in front of them. The background is slightly blurred, showing shelves with books and warm lamps. Cinematic, warm color palette, bokeh effect. Captured with a Sony A7III, 85mm lens, f/1.8, extremely detailed.
Изюминка этого запроса — акцент на атмосфере: приглушённый свет, тёплые тона, эффект боке.
А что насчёт более формальной, корпоративной съёмки? Здесь важны строгость, уверенность и профессионализм. Задача — показать сплочённую команду. Попробуем такой вариант:
Group portrait of a diverse corporate team of six professionals (four men and two women) in modern business attire, standing confidently in a bright, minimalist office with large windows overlooking a cityscape. Neutral facial expressions, some are slightly smiling. Professional studio lighting, sharp focus, clean composition, high-resolution photography, powerful and successful mood.
В этом промте солирует настроение — «мощное и успешное», что напрямую влияет на позы и выражения лиц персонажей.
Ну и, конечно же, нельзя обойти стороной что-то фантазийное. Допустим, вы хотите изобразить отряд приключенцев. Тут уж можно дать волю воображению:
Epic fantasy art of a group of five adventurers standing on a cliff edge at sunset. A male human warrior in steel armor, a female elf archer with a longbow, a dwarf with a battle axe, a wizard in robes holding a glowing staff, and a rogue in a dark cloak. Dramatic lighting from the setting sun, cinematic fantasy landscape with mountains in the background, highly detailed, digital painting in the style of Dungeons and Dragons.
Такой скрупулёзный подход позволит получить грандиозный и колоритный постер.
Стоит ли бояться «негативных» промтов?
Короткий ответ — нет. Не стоит их не то что бояться, а даже активно использовать. Негативный промт — это команда, которая указывает нейросети, чего на изображении быть НЕ должно. В большинстве генераторов (особенно в Midjourney) это реализуется через параметр --no. Это ваш спасательный круг в борьбе с артефактами. К слову, это довольно мощный инструмент.
Что обычно вносят в негативные запросы? В первую очередь, это самые распространённые ошибки: extra limbs, extra fingers, deformed hands, mutated body parts, disfigured, blurry face, bad anatomy, ugly. Добавляя этот список в конец своего основного промта, вы существенно повышаете шансы на получение анатомически корректного изображения. Кроме того, можно исключать и стилистические элементы. Например, если вы не хотите, чтобы картинка выглядела как рисунок, можно добавить --no painting, drawing, illustration. Это же правило касается и нежелательных объектов в кадре.
Так что не бойтесь экспериментировать, совмещать позитивные и негативные команды, менять параметры и стили. Процесс создания идеального промта — это всегда немного исследование. Удачи в ваших творческих начинаниях, и пусть ваши цифровые фотоальбомы пополнятся настоящими шедеврами.