
В данном лонгриде будет представлен результат обучения генеративной нейросети для создания изображений в стилистике «Таро безумной Луны» художника Патрика Веленца.
В результате обучения нейросети ожидается получить изображения, которые будут передавать уникальную атмосферу и стиль данной колоды таро с ее визуальной эстетикой, загадочностью и драматизмом, а также иметь схожее эмоциональное воздействие: работы должны вызывать у зрителя любопытство и желание погрузиться в мир фантазии и мистики, что характерно для «Таро безумной Луны».


Примеры исходных изображений (оригинальные работы художника)


Примеры исходных изображений (оригинальные работы художника)
Генерации:


Примеры генерации: 1) a painting of dragon | 2) a painting of a woman holding a glass


Примеры генерации: 1) dark knight is attacking the moon | 2) evil witch is drinking wine


Примеры генерации: 1) painting of evil blood moon | 2) moon and sun are drinking tea


Примеры генерации: 1) rabbits are playing uno | 2) sad girl in a blue uniform is crying, and a blue crow is laughing over him


Примеры генерации: 1) a painting of a tower with two people on it | 2) a card with a picture of a man with horns

Примеры генерации: 1) little girl is walking with big dog
Вывод:
Нейросеть смогла перенять мрачную стилистику художника и воссоздать некоторые ее особенности. Также сохранена цветовая палитра, текстуры и особенности изображения персонажей (светящиеся глаза, заостренные формы, несколько пар конечностей и двуликость лиц). На всех сгенерированных изображениях нейросеть отобразила луну в различных ее фазах, что также является одним из важных элементов работ художника. При общем успехе нейросети все же не удалось полноценно передать оригинальные изображения в виду отсутствия символизма и глубокого скрытого смысла, коим наполнены взятые за основу карты таро Патрика Веленца.
Процесс настройки модели состоял из нескольких важных шагов: 1. Сбор и подготовка датасета, состоящего из изображений художника. 2. Обучение модели с использованием Fine-tuning Stable Diffusion XL (1000 шагов для обучения, промежуточные не потребовались). 3. Применение методов DreamBooth и LoRA.
Благодаря использованию DreamBooth удалось интегрировать в модель концепцию стиля Патрика Веленца, LoRA же обеспечил эффективное обучение модели при минимальных вычислительных ресурсах. Работа проводилась в среде Kaggle, что позволило использовать доступные облачные вычисления для обучения модели. ГенИИ не использовался.
Описание применения генеративной модели:
Искусственный интеллект применялся для обучения существующей стилистике художника, с целью передать особенности, эмоциональную составляющую и символизм оригинальных работ автора. Модель базирована на stable-diffusion-xl-base-1.0