Original size 1140x1600

Обучение генеративной нейросети под стиль готического витража

PROTECT STATUS: not protected
6

Идея проекта

Проект посвящен обучению нейросетевой модели Stable Diffusion стилю средневековых готических витражей, характерных для французских соборов XII–XIII веков. Наиболее яркие образцы этого искусства сохранились в Соборе Парижской Богоматери. Отличительными чертами стиля являются минимализм, ограниченная цветовая палитра с доминированием кобальтово-синего, и четкая, контрастная графичность.

big
Original size 1024x680

Фрагмент залива 121, Роза, Собор Парижской Богоматери

big
Original size 3195x678

Собор Парижской Богоматери

Витражи состоят из множества отдельных стеклянных фрагментов, складывающихся в единый библейский сюжет или притчу. Для обучения модели была подготовлена база данных, состоящая не из целых витражных полотен, а из их небольших фрагментов круглой формы, что позволит добиться более детальной и точной генерации изображений.

big
Original size 2111x1024

Фрагменты витражного полотна

Original size 2111x1024

Фрагменты витражного полотна

Процесс обучения модели

Для обучения генеративной нейросети было выбрано около 150 фрагментов витражей, а затем кадрированных 1:1

Original size 2089x1028
Original size 2436x361

Фрагмент кода Google Colab

Original size 2438x400

Фрагмент кода Google Colab

Original size 2435x625

Фрагмент кода Google Colab

Первый этап включал: проверка GPU, установка зависимостей, создание локальной директории и загрузка изображений в Google Colab.

Original size 2435x678

Фрагмент кода Google Colab

Original size 2436x916

Фрагмент кода Google Colab

Затем модель BLIP генерировала описания изображений, к которым добавлялся префикс для стилизации под средневековый витраж. Эти объединенные текстовые данные служили основой для обучения дальнейшей модели.

Original size 2434x622

Фрагмент кода Google Colab

Original size 2432x618

Фрагмент кода Google Colab

После этого был запущен процесс обучения модели с использованием метода LoRA, который занял около двух часов с заданными настройками.

Original size 2423x247

Фрагмент кода Google Colab

Original size 2437x847

Фрагмент кода Google Colab

Original size 2433x560

Фрагмент кода Google Colab

По окончании обучения модель сохраняется, загружается на платформу Hugging Face Hub и становится доступной для использования. Далее можно создавать изображения.

Серия изображений

Благодаря первым пробам генераций я заметно, что нейросеть хорошо улавливает форму и общий стиль, но изображение сильно ухудшается из-за обилия фрагментов мозаики и сколов, которые были переданы генерацией.

Original size 3195x1024

При следующей генерации была убавлена сила checkpoint до -250, что помогло сделать изображения более чистыми.

Original size 2111x1024
Original size 2111x1024

Затем я приступила к более сюжетной генерации, используя библейские мотивы, которые были отражены на витражных полотнах собора.

Original size 2111x1024
Original size 2111x1024
Original size 2111x1024
Original size 2111x1024

В завершении, я попробовала совместить два стиля, созданных стиль medieval_stained_glass_style и стиль картин французского художника Анри Матисса «Танец» и «Женщина».

Original size 2111x1024

Описание применения генеративной модели

Основой для дообучения и генерации изображений послужила модель Stable Diffusion. Создание промптов и разработка общей концепции осуществлялись с использованием GPT-ChatBot.

Ноутбук с кодом

Обучение генеративной нейросети под стиль готического витража
6
We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more