В сети сегодня можно наткнуться на огромное количество изображений, созданных искусственным интеллектом. Пейзажи, портреты, фантастические миры — кажется, что нейросети способны на всё. Многие пользователи грезят о том, чтобы не просто копировать чужие стили, а создавать нечто по-настоящему самобытное, с юмором и изюминкой. И тут на помощь приходит старый добрый жанр карикатуры, получивший второе дыхание в цифровом мире. Удивительно, но научить машину шутить и подмечать забавные детали — задача вполне реальная. Но чтобы нейросеть поняла вас правильно и выдала остроумный шарж, а не пугающий гротеск, нужно освоить искусство составления запроса, или, как его называют, промта.
Что такое карикатура в мире нейросетей?
В представлении многих обывателей карикатура — это просто смешной портрет. Так ли это? Вовсе нет. Суть жанра кроется в преувеличении, в акцентировании характерных черт человека или явления, чтобы добиться комического эффекта. Это же правило касается и промтов для ИИ. Недостаточно просто написать «смешной портрет политика N». Нейросеть (например, Midjourney или Stable Diffusion) должна получить чёткую инструкцию, что именно и как сильно преувеличивать. Главная цель — не оскорбить, а по-доброму посмеяться, подчеркнуть какую-то деталь, которая бросается в глаза. Именно в этом и состоит основной подводный камень: найти баланс между узнаваемостью и гротеском. А сделать это можно только с помощью скрупулёзно подобранных слов в запросе.
Задача не из лёгких. Ведь ИИ не обладает человеческим чувством юмора и иронии. Он воспринимает команды буквально. Поэтому львиная доля успеха зависит от того, насколько точно вы опишете желаемый результат, разложив его на простые и понятные для машины составляющие. Стоит помнить, что карикатура — это не всегда портрет. Это может быть и сатирическое изображение социальной ситуации, и комментарий к какому-либо событию. Однако в контексте генерации изображений чаще всего речь идёт именно о шаржах на конкретных людей.
Основа промта: от чего отталкиваться?
С чего начинается создание промта? С определения четырёх китов, на которых будет держаться вся композиция. Во-первых, нужно определиться с главным героем. Это может быть известная личность, ваш друг или даже вы сами. Для знаменитостей достаточно указать имя и фамилию, ведь нейросеть уже обучена на миллионах их изображений. А вот для создания шаржа на знакомого придётся загружать референсное фото и описывать его внешность словами, что, конечно, несколько сложнее.
Следующий важный шаг — выбор стилистики. Само слово «caricature» уже служит мощным маркером для нейросети. Но его можно и нужно уточнять. Например, добавить «political caricature», «satirical illustration» или «cartoon style». Каждый из этих маркеров направит генерацию в своё русло, от газетного шаржа до диснеевской анимации. Не стоит ими пренебрегать, иначе результат может получиться довольно неоднозначным.
Отдельно стоит упомянуть главный инструмент карикатуриста — преувеличение. Здесь нужно быть максимально конкретным. Вместо общего «с преувеличенными чертами» лучше указать, что именно гипертрофировать. Например, «огромный нос», «крошечное тело и большая голова», «чрезмерно длинные руки» или «невероятно густые брови». Чем точнее будет это описание, тем комичнее и прицельнее получится изображение. Это, пожалуй, самый творческий этап во всей этой махинации.
Ну и, конечно же, антураж. Герой не должен висеть в пустоте. Поместите его в какую-нибудь забавную ситуацию или дайте в руки характерный предмет. Бизнесмен, считающий мелочь на калькуляторе, политик, пытающийся вкрутить лампочку молотком, или спортсмен, едва поднимающий плюшевую гантель. Контекст творит чудеса и добавляет изображению второй смысловой слой, превращая простой шарж в целую историю.
Готовые примеры: простые и понятные
Давайте разберём несколько конкретных запросов, чтобы теория стала нагляднее. Представим, что мы хотим создать шарж на известного своей любовью к космосу предпринимателя. Запрос может выглядеть так:
a political caricature of Elon Musk with a giant forehead, a tiny body in a spacesuit, holding a toy rocket, exaggerated confident smile, cartoon style, vibrant colors, funny
Что здесь важно? Мы чётко указали объект, конкретизировали преувеличение (огромный лоб, маленькое тело), добавили контекст (скафандр и игрушечная ракета) и задали общий мультяшный стиль с яркими цветами. Такой добротный и подробный промт с высокой вероятностью даст предсказуемый и смешной результат.
А вот пример посложнее — собирательный образ офисного работника в момент дедлайна. Здесь нет конкретного лица, поэтому всё внимание на детали. Запрос:
a caricature of a stressed office worker with huge tired eyes, messy hair, sitting at a tiny desk overloaded with papers, multiple hands typing on several keyboards, exaggerated expression of panic and exhaustion, satirical illustration style, muted colors, coffee stains everywhere
В этом промте солирует не одна черта, а целое состояние. Мы описываем не только внешность (усталые глаза, растрёпанные волосы), но и абсурдность ситуации — несколько рук, крошечный стол, заваленный бумагами. Такой запрос тяготеет уже к социальной сатире.
Ну, а если вы хотите сделать дружеский шарж на своего знакомого? Допустим, он заядлый рыбак, который любит преувеличивать размеры своего улова. К референсному фото можно добавить такой текстовый запрос:
a caricature of a man with a ginger beard, wearing a fishing hat, ridiculously small body, struggling to hold a gigantic cartoonish fish, exaggerated expression of pride and effort, background of a peaceful lake, funny cartoon style
Тут вся изюминка в контрасте между крошечным телом рыбака и грандиозной рыбой, что и создаёт комический эффект, понятный без лишних слов.
Какие ошибки стоит избегать?
Главный враг хорошей карикатуры — неопределённость. Промты вроде «сделай смешного человека» или «забавный портрет» почти всегда ведут в никуда. ИИ не поймёт, что именно вы считаете смешным. Поэтому не скупитесь на прилагательные и уточняющие детали. Конкретика — ваш спасательный круг.
Другая довольно частая ошибка — смешение несовместимых стилей. Не стоит в одном запросе просить «фотореалистичную карикатуру в стиле аниме и кубизма». Такая мешанина только запутает нейросеть, и на выходе получится наляпистый и невнятный гибрид. Лучше выбрать одно основное направление и придерживаться его. Если уж выбрали мультяшный стиль, то и все остальные элементы промта должны ему соответствовать.
Ну и, наконец, не стоит ждать от машины стопроцентного попадания с первой попытки. Процесс генерации — это всегда немного лотерея. Иногда самые удачные и остроумные изображения получаются после нескольких итераций, когда вы меняете одно-два слова, немного корректируете акценты или просто нажимаете кнопку «сгенерировать заново». Не бойтесь экспериментировать и добавлять в свои запросы щепотку контролируемого безумия.
Создание карикатур с помощью нейросетей — это увлекательный процесс, который находится на стыке технологии и творчества. Освоив базовые постулаты составления промтов, вы сможете генерировать действительно остроумный и оригинальный контент. Удачи в ваших творческих экспериментах.