
Идея проекта
Я принялась обучать генеративную нейросеть Stable Diffusion для создания изображений в стиле Укиё-э — классической японской гравюры XVII–XIX веков. Этот проект — не просто стилизация, а попытка научить искусственный интеллект понимать философию «мира текущего», его эстетику, композицию и дух.
Что такое Укиё-э?
Это не просто картинки. Это «картины бренного мира», запечатлевшие красоту момента: утонченных красавиц-бидзин, грозных актеров кабуки, героев легенд и, конечно, знаменитые пейзажи с горой Фудзи. Для меня ключевыми художниками являются Кацусика Хокусай, Утагава Хиросигэ и Китагава Утамаро.


Описание процесса обучения
На первом этапе была развернута среда разработки в Google Colab: установлены ключевые библиотеки, такие как Diffusers и DreamBooth.
Список использованных в проекте инструментов:
— Stable Diffusion — обучение генеративной нейросети под свой стиль; — Google Colab — выполнение кода и генераций; — Hugging Face — получение токена для обучения нейросети, загрузка полученной модели на сайт; — Deepseek — для подробного промта при генерации картинок.
Затем подготовленный датасет с иллюстрациями проекта был загружен в рабочую среду. После завершения загрузки была проведена быстрая проверка, подтвердившая целостность и корректность всех изображений, что позволило перейти к следующему этапу — предобработке данных и непосредственному обучению модели.

Данный код скачивает готовый датасет с изображениями с платформы Hugging Face Hub в локальную директорию для последующей работы с моделью.
Этот код выполняет задачи:
1. Загружает изображения из указанной папки (./art/), находя все файлы с расширением .jpg. 2. Создает и отображает сетку из первых 5 найденных изображений, масштабируя их до 256×256 пикселей и располагая в одну строку для удобного предпросмотра.
Этот код автоматически создает промыт для изображений с помощью нейросети. Процесс состоит из трех этапов:
1. Загрузка модели BLIP для генерации текстовых описаний изображений. 2. Создание списка изображений из папки ./art/ с их путями. 3. Генерация метаданных: для каждой картинки модель BLIP создает текстовое описание, к которому добавляется префикс «photo collage in UKIYE EH style», и сохраняет результат в файле.
Этот файл метаданных необходим для последующего обучения модели, чтобы связать каждое изображение с текстовым описанием.
Удаляются загруженные модели BLIP для генерации описаний, которые больше не нужны, и освобождаются ресурсы для последующих операций с нейросетями.


Этот код выполняет два ключевых действия:
1. Загружает и подготавливает базовую модель Stable Diffusion XL вместе с оптимизированным VAE для последующей генерации изображений. 2. Запускает обучение LoRA на вашем датасете с параметрами:
Модель: Stable Diffusion XL Стиль: «photo collage in UKIYE EH style» Разрешение: 512×512 Количество шагов: 500 Пакетный размер: 2
Итоговая галерея
промт: «photo collage in UKIYE EH style, An old, moss-covered stone temple hidden deep in a lush, sunlit forest»


промты: «A young woman sitting on a bench in a mystical night garden, reading an old book by the light of a full moon and glowing flowers»; «A beautiful geisha in an ornate kimono holding a delicate»
Говорят, чтобы стать великим мастером укиё-э, Хокусай молился в храме бодхисаттве Мёкэну 21 день. Когда он возвращался из храма на 21-й день, небо потемнело, и в Хокусая ударила молния. Он упал посреди рисового поля и с того момента начал преуспевать.
Цитата из книги «Кацусика Хокусай»


промты: «A beautiful geisha in an ornate kimono holding a delicate paper fan, half-hiding her face.», «A woman in a kimono performing a tea ceremony on a wooden platform overlooking a koi pond»
photo collage in UKIYE EH style, A young woman sitting on a bench in a mystical night garden, reading an old book by the light of a full moon and glowing flowers»


«photo collage in UKIYE EH style, A serene Japanese garden» «photo collage in UKIYE EH style, A dynamic shot of a dancer in a vibrant, flowing kimono spinning with a large.»
Обученная модель успешно усвоила суть стиля укиё-э — характерную плоскостность композиции, выразительность линий и ограниченную цветовую палитру. Нейросеть не стала копировать конкретные изображения из датасета, а научилась генерировать новые работы, сохраняя ключевые эстетические принципы японской гравюры. Каждое изображение теперь несет в себе узнаваемый дух укиё-э, демонстрируя, как современная технология может переосмыслить традиционное искусство.