
Идея проекта
Проект посвящен обучению нейросетевой модели Stable Diffusion стилю средневековых готических витражей, характерных для французских соборов XII–XIII веков. Наиболее яркие образцы этого искусства сохранились в Соборе Парижской Богоматери. Отличительными чертами стиля являются минимализм, ограниченная цветовая палитра с доминированием кобальтово-синего, и четкая, контрастная графичность.

Фрагмент залива 121, Роза, Собор Парижской Богоматери

Собор Парижской Богоматери
Витражи состоят из множества отдельных стеклянных фрагментов, складывающихся в единый библейский сюжет или притчу. Для обучения модели была подготовлена база данных, состоящая не из целых витражных полотен, а из их небольших фрагментов круглой формы, что позволит добиться более детальной и точной генерации изображений.

Фрагменты витражного полотна
Фрагменты витражного полотна
Процесс обучения модели
Для обучения генеративной нейросети было выбрано около 150 фрагментов витражей, а затем кадрированных 1:1
Фрагмент кода Google Colab
Фрагмент кода Google Colab
Фрагмент кода Google Colab
Первый этап включал: проверка GPU, установка зависимостей, создание локальной директории и загрузка изображений в Google Colab.
Фрагмент кода Google Colab
Фрагмент кода Google Colab
Затем модель BLIP генерировала описания изображений, к которым добавлялся префикс для стилизации под средневековый витраж. Эти объединенные текстовые данные служили основой для обучения дальнейшей модели.
Фрагмент кода Google Colab
Фрагмент кода Google Colab
После этого был запущен процесс обучения модели с использованием метода LoRA, который занял около двух часов с заданными настройками.
Фрагмент кода Google Colab
Фрагмент кода Google Colab
Фрагмент кода Google Colab
По окончании обучения модель сохраняется, загружается на платформу Hugging Face Hub и становится доступной для использования. Далее можно создавать изображения.
Серия изображений
Благодаря первым пробам генераций я заметно, что нейросеть хорошо улавливает форму и общий стиль, но изображение сильно ухудшается из-за обилия фрагментов мозаики и сколов, которые были переданы генерацией.
При следующей генерации была убавлена сила checkpoint до -250, что помогло сделать изображения более чистыми.
Затем я приступила к более сюжетной генерации, используя библейские мотивы, которые были отражены на витражных полотнах собора.
В завершении, я попробовала совместить два стиля, созданных стиль medieval_stained_glass_style и стиль картин французского художника Анри Матисса «Танец» и «Женщина».
Описание применения генеративной модели
Основой для дообучения и генерации изображений послужила модель Stable Diffusion. Создание промптов и разработка общей концепции осуществлялись с использованием GPT-ChatBot.
Ноутбук с кодом