Промт для создания шаржа (с примерами готовых промтов)

Буквально несколько лет назад для создания забавного шаржа требовался художник, обладающий не только талантом, но и острым чувством юмора, способный уловить и гиперболизировать характерные черты человека. Сегодня же, с расцвётом нейросетей, грезить о карьере карикатуриста может практически каждый, у кого есть компьютер и фантазия. Искусственный интеллект научился рисовать, причём делает это в тысячах разных стилей. Однако, чтобы нейросеть поняла вас правильно и выдала нечто остроумное, а не просто кривой портрет, нужно скрупулёзно подойти к искусству составления промтов.

Что такое шарж для нейросети?

Задача не из лёгких. Ведь машина лишена чувства юмора в человеческом понимании. Для неё шарж — это не тонкая сатира, а чисто техническое задание на преувеличение определённых деталей. Вся суть в том, что вы должны выступить в роли «глаз» и «мозга» для алгоритма, буквально разложив по полочкам, что и как нужно исказить. С чего начинается этот процесс? С чёткого указания на объект карикатуры, его самые яркие, бросающиеся в глаза черты. А затем нейросети нужно подсказать, что именно преувеличивать. Это может быть деталь внешности, элемент одежды, профессиональный атрибут или даже эмоция. Ну и, наконец, стоит добавить контекст, который и создаст комический эффект. Без этих трёх составляющих на выходе получится скорее неумелая зарисовка, чем добротный шарж.

Нейросеть довольно часто не понимает абстрактных команд вроде «сделай смешно». Ей нужны конкретные, измеримые инструкции. Вместо «смешной нос» лучше написать «длинный крючковатый нос, как у Пиноккио». Вместо «умный вид» — «огромный выпуклый лоб и очки-велосипеды на кончике носа». Чем детальнее вы опишете гиперболу, тем точнее искусственный интеллект воплотит вашу задумку в жизнь. По сути, вы программируете юмор, переводя его с языка эмоций на язык атрибутов и пропорций. Это же правило касается и фона: он должен не просто присутствовать, а работать на общую идею, подчёркивая и усиливая центральный образ.

Базовая формула промта

Хотя и не существует единого, стопроцентно работающего шаблона, со временем у энтузиастов сформировалась довольно надёжная структура промта, на которую можно опереться. Её можно представить как конструктор. Во-первых, вы задаёте основной объект и его ключевую характеристику. Во-вторых, добавляете команду на преувеличение, то есть само слово «шарж» или «карикатура». В-третьих, описываете стиль, в котором должно быть выполнено изображение. И, наконец, насыщаете запрос деталями фона, освещения и техническими параметрами.

Разберём эту махинацию подробнее. Объект – это, например, «рыжий кот» или «пожилой профессор». Команда на преувеличение — это прямое указание: caricature, funny caricature portrait, exaggerated features. Стилистика приковывает к себе львиную долю внимания, ведь именно от неё зависит антураж. Это может быть «в стиле студии Pixar», «рисунок детским карандашом», «в стиле обложки журнала The New Yorker» или «графика в духе Тима Бёртона». Детализация — это кладезь возможностей для творчества. Здесь вы описываете одежду, эмоцию (например, «с хитрой ухмылкой»), действие («жадно ест пиццу») и окружение («сидит на горе книг»). Ну а технические параметры помогают управлять качеством: сюда входят указания на соотношение сторон, версию модели нейросети и уровень стилизации.

Как выглядят готовые промты?

Теория — это хорошо, но без практики она мертва. Давайте посмотрим на конкретные примеры, которые помогут уловить суть. Представим, что мы хотим создать шарж на типичного программиста, который буквально живёт в коде. Промт для нейросети (например, для Midjourney) может выглядеть так:

Funny caricature of a tired programmer with huge glasses, sitting in front of a glowing monitor in a dark room. Exaggerated features, very large head, tiny body. He is typing furiously on a keyboard, surrounded by empty coffee cups and pizza boxes. Pixar animation style, cinematic lighting, highly detailed, 4K.

Что мы здесь видим? Чётко обозначен объект («уставший программист»). Есть указание на шарж и преувеличение («funny caricature», «exaggerated features», «very large head, tiny body»). Задан узнаваемый стиль («Pixar animation style»). Ну и, конечно же, добавлено множество колоритных деталей, которые и создают историю: светящийся монитор, пустые чашки, коробки из-под пиццы. Всё это вместе творит чудеса, превращая сухой запрос в яркий и говорящий образ.

А вот другой вариант, для любителя собак, который обожает своего корги. Задача — показать эту любовь в забавном ключе.

Charming caricature of a happy man hugging a ridiculously long corgi that stretches across the whole image. The man has a huge joyful smile. The corgi looks slightly annoyed. Exaggerated cute style, studio lighting, simple colored background, detailed fur texture, style of children’s book illustration.

В этом промте изюминка — в противопоставлении. С одной стороны, восторженный хозяин с огромной улыбкой. С другой — нелепо длинный корги с немного недовольным видом. Именно на этом контрасте и строится юмор. К слову, не стоит бояться добавлять в описание эмоции, даже если они кажутся сложными для машины. Современные модели ИИ довольно неплохо научились их интерпретировать, особенно если подкрепить их визуальными маркерами, как в случае с «huge joyful smile».

Стоит ли бояться ошибок?

Обязательно ли первый же промт даст идеальный результат? Вовсе нет. Работа с нейросетями — это всегда процесс проб и ошибок. Иногда ИИ может неверно истолковать вашу задумку или «забыть» про важную деталь. Это нормально. Существует несколько подводных камней, о которые спотыкаются новички. Один из самых частых — перегруженность запроса противоречивыми стилями. Не стоит смешивать в одном промте «готический стиль Тима Бёртона» и «яркий стиль аниме Хаяо Миядзаки», кошелёк токенов станет легче, а результат будет, скорее всего, удручающим.

Другая ошибка — слишком абстрактные или общие описания. Как уже упоминалось, нейросеть — довольно тугодумный исполнитель. Ей нужна конкретика. Не «добавь смешных деталей», а «на его голове сидит маленький голубь в шляпе». Не «сделай фон весёлым», а «на фоне — взрывающаяся фабрика фейерверков». Нужно отметить, что иногда нейросеть может проигнорировать команду caricature и просто нарисовать портрет. В таком случае стоит усилить акцент на преувеличении, добавив в промт такие слова, как grotesque, distorted proportions (искажённые пропорции), big head mode.

Главное — не бояться экспериментировать, менять слова местами, упрощать или, наоборот, усложнять запрос. Львиная доля успешных изображений получается не с первого, а с пятого или даже десятого раза. Воспринимайте это не как неудачу, а как увлекательный диалог с машиной, в ходе которого вы вместе ищете тот самый, единственно верный образ.

Так что смело погружайтесь в этот дивный новый мир цифрового творчества. Пробуйте, меняйте, сочетайте несочетаемое, и рано или поздно сгенерированный шарж не просто позабавит, а станет настоящей изюминкой вашей коллекции. Удачи в творческих поисках.