Каждый, кто хоть раз пытался создать обложку для книги, музыкального альбома или даже для своего доклада с помощью нейросетей, сталкивался с неоднозначным результатом. Вроде бы и идея в голове была яркая, и слова подобраны правильные, а на выходе получается нечто среднее между сном сюрреалиста и стоковой фотографией сомнительного качества. Многие считают, что генерация изображений — это лотерея, где невозможно предсказать итог. На самом деле нейросеть — это не волшебная палочка, а невероятно мощный, но скрупулёзный исполнитель, который требует чёткого технического задания. Но чтобы нейросеть стала послушным инструментом, а не генератором случайных картинок, нужно научиться говорить на её языке.
Что такое промт и как он работает?
В представлении многих обывателей промт (от англ. prompt — «побуждение», «запрос») — это просто несколько слов, описывающих желаемое. Например, «девушка в лесу». Но такой подход почти всегда ведёт к разочарованию. Почему? Потому что для нейросети это звучит как «сделай что-нибудь как-нибудь». Она сама выберёт и стиль, и позу девушки, и время года, и освещение. Результат будет, но вряд ли он совпадёт с вашим видением.
На самом деле добротный промт — это подробное техническое задание, почти режиссёрский сценарий для одного кадра. Ведь именно он детально разъясняет нейросети, что от неё требуется, какой объект должен солировать в кадре, в какой стилистике всё выполнить, как выстроить композицию и даже какие технические параметры у изображения должны быть. Чем подробнее и точнее запрос, тем выше шанс получить именно ту обложку, о которой вы грезили.
Структура идеального запроса: от общего к частному
Задача не из лёгких. Но разложить всё по полочкам довольно просто, если двигаться последовательно. С чего начинается грамотный промт? С определения основного объекта и его окружения. Это костяк, на который уже будут нанизываться все остальные детали. Стоит максимально точно описать, что или кто находится в центре внимания: «молодой волшебник со светящимся посохом», «одинокий небоскрёб в стиле киберпанк» или «минималистичная иконка приложения».
Следующий важный блок — это действие или состояние. Персонаж может «стоять на вершине горы, глядя на закат», «читать древнюю книгу в тускло освещённой библиотеке» или «парить в невесомости». Даже неодушевлённые предметы могут иметь состояние — «разрушенный замок, окутанный туманом». Далее следует стилистика, которая творит настоящие чудеса и задаёт весь антураж. Одно дело — «фотореалистичное изображение», и совсем другое — «рисунок в стиле аниме 90-х», «акварельная иллюстрация» или «векторная графика». Здесь же можно указать имя конкретного художника (например, «в стиле Ивана Айвазовского» или «в духе Тима Бёртона»), чтобы нейросеть попыталась имитировать его манеру. Ну и, наконец, венчают запрос технические уточнения: композиция («вид с высоты птичьего полёта», «крупный план лица»), освещение («мягкий утренний свет», «неоновое освещение», «драматические тени») и параметры самого изображения (качество 4K, соотношение сторон 16:9).
Какие стили самые популярные?
Выбор огромен. И он напрямую зависит от задачи. Для обложки современного бизнес-романа или гайда по психологии едва ли подойдёт вычурная стилизация под