В сети представлено множество нейросетей, способных по текстовому запросу создавать настоящие визуальные шедевры. Каждый день обыватели и профессиональные дизайнеры генерируют тысячи изображений, пытаясь нащупать ту самую, вирусную идею, которая принесёт им известность. И, конечно же, львиная доля экспериментов касается медийных личностей, в особенности – политиков мирового масштаба. Однако попытка создать качественное и интересное изображение с известным человеком часто натыкается на невидимую стену ограничений и откровенно слабых результатов. Но чтобы не ошибиться и заставить искусственный интеллект работать на вас, нужно разобраться в тонкостях составления правильного запроса.
Почему Путин – сложный объект для генерации?
Задача не из лёгких. Казалось бы, что может быть проще, чем сгенерировать портрет одного из самых узнаваемых людей на планете? Ведь фотографий, на которых обучалась нейросеть, должно быть предостаточно. Но на самом деле именно здесь и скрываются главные подводные камни. Во-первых, большинство крупных сервисов (особенно Midjourney и DALL-E) имеют довольно жёсткие этические фильтры. Они встроены, чтобы предотвратить создание дипфейков, клеветнического или оскорбительного контента. Любой запрос, который может быть интерпретирован как политически ангажированный или провокационный, система может отклонить или выдать намеренно искажённый результат. Это её спасательный круг.
Во-вторых, дело в так называемой «зашумлённости» данных. Изображений президента в сети миллионы: от официальных протокольных снимков до интернет-мемов и карикатур. Искусственный интеллект, пытаясь угодить пользователю, смешивает все эти стили в один котёл, в результате чего на выходе получается нечто усреднённое и зачастую лишённое индивидуальности. Лицо может получиться размытым, «пластиковым» или напоминать восковую фигуру. Поэтому не стоит удивляться, если первые попытки приведут к удручающему зрелищу. Нужно просто подойти к процессу скрупулёзно и с пониманием того, как мыслит машина.
Базовые принципы промт-инжиниринга
С чего начинается создание любого промта? С определения его структуры. Промт – это, по сути, ваше техническое задание для нейросети, и чем оно детальнее, тем предсказуемее будет результат. В основе любого добротного запроса лежат несколько постулатов. Нужно отметить, что сначала всегда идёт описание главного объекта – кто или что должно быть в центре композиции. Далее следует действие, которое этот объект совершает, или его статичная поза. Третьим важным элементом выступает стилистика: это может быть фотореализм, картина маслом, карандашный набросок, стимпанк или даже пиксель-арт. Ну и, конечно же, не стоит забывать про детали, которые творят чудеса – окружение, освещение, одежда и даже эмоции. Завершает конструкцию обычно техническая информация о камере, объективе или рендере, которая помогает добиться нужного визуального эффекта.
Как обойти базовые ограничения нейросети?
Столкнувшись с первыми отказами, многие опускают руки. А зря. Существуют обходные пути, которые помогают получить желаемое, не нарушая напрямую правила платформы. Самый простой способ – избегать прямого упоминания имени и фамилии. Вместо «Vladimir Putin» можно использовать более описательные формулировки. Например, «Russian president», «man with features of the Russian leader» или «political leader in a suit in the Kremlin». Нейросеть прекрасно поймёт, о ком идёт речь, но формально триггер на конкретное имя не сработает. Это же правило касается и потенциально спорных сюжетов.
Другой эффективный приём – смещение акцента. Вместо того чтобы запрашивать конкретное действие, стоит сосредоточиться на антураже и атмосфере. Например, вместо запроса, который может быть расценён как политический, можно создать образ в историческом или фантастическом контексте. Это даёт машине больше творческой свободы и снижает вероятность блокировки. К тому же, не стоит перегружать промт избыточными и противоречивыми деталями. Если вы хотите фотореализм, не нужно добавлять в запрос «в стиле Ван Гога». Простота и логичность – вот залог успеха.
Примеры готовых промтов: от простого к сложному
Давайте разложим по полочкам несколько конкретных вариантов, чтобы понять механику. Начать стоит с чего-то базового, например, с классического фотопортрета.
Базовый фотопортрет:
«photorealistic portrait of the Russian president sitting in a Kremlin office, soft window light, serious expression, wearing a dark suit, Nikon D850, 85mm f1.4 lens, hyperdetailed, sharp focus»
Здесь мы видим чёткую структуру: объект («Russian president»), место («Kremlin office»), освещение («soft window light»), эмоция («serious expression»), детали одежды и, что очень важно, технические параметры камеры, которые намекают ИИ на высочайшее качество и реалистичность кадра.
Теперь усложним задачу и попробуем создать нечто более художественное. Например, стилизацию под живопись.
Художественная стилизация:
«oil painting of a man resembling the Russian leader as a Roman emperor, sitting on a throne, wearing a white toga and a laurel wreath, in the style of Jacques-Louis David, dramatic lighting, epic composition, highly detailed»
В этом случае мы полностью уходим от фотореализма в сторону классического искусства. Упоминание конкретного художника (Давид – мастер неоклассицизма) задаёт точный стиль. А такие слова, как «dramatic lighting» и «epic composition», отвечают за атмосферу и грандиозность полотна.
Ну и, наконец, самый сложный и неоднозначный вариант – генерация чего-то на грани мема, но без прямого нарушения правил.
Фантастический/Мемный сюжет:
«cinematic wide shot of a man with strong facial resemblance to a famous Russian politician, majestically riding a large brown bear through a snowy Siberian taiga, fantasy style, epic winter landscape, hyperrealistic, octane render»
Ключевые слова здесь – «cinematic shot» (кинематографический кадр), «fantasy style» (что сразу переводит сцену в разряд вымысла) и «octane render» (указание на движок рендеринга, известный своим фотореализмом в 3D-графике). Такой промт с высокой вероятностью пройдёт модерацию.
Что делать, если ничего не получается?
Бывает и так. Даже самый скрупулёзный промт не всегда даёт стопроцентный результат. Что насчёт этого? Главное – не отчаиваться. Во-первых, попробуйте упростить запрос. Уберите из него половину деталей и посмотрите, как отреагирует нейросеть. Иногда именно перегруженность мешает ей правильно интерпретировать вашу идею. Во-вторых, стоит экспериментировать с разными моделями. Midjourney тяготеет к художественности и эпичности, DALL-E 3 лучше справляется с фотореализмом и точным следованием запросу, а Stable Diffusion даёт максимум свободы, но требует более глубоких технических знаний (например, использования негативных промтов, где вы указываете, чего на изображении быть не должно). Ну и, наконец, просто меняйте формулировки. Замена одного-двух слов в промте может кардинально изменить итоговую картинку.
Эксперименты с образами известных личностей – это не просто развлечение, а отличная тренировка навыков промт-инжиниринга. Это заставляет думать, как машина, искать обходные пути и оттачивать формулировки до идеала. Удачи в ваших творческих махинациях!