Original size 732x1024

Fluffy

PROTECT STATUS: not protected
The project is taking part in the competition

Идея проекта

post

Цель проекта — обучить генеративную нейросеть Stable Diffusion XL воспроизводить конкретного персонажа: пушистого милого цыплёнка в стиле cute illustration. Идея заключается в том, чтобы модель запомнила уникальные черты персонажа — круглую пушистую форму, большие тёмные глаза, оранжевый клюв и лапки — и могла помещать его в совершенно разные ситуации и окружения, сохраняя узнаваемость.

post

Для обучения был собран датасет из 30 изображений цыплёнка в едином cute illustration стиле, сгенерированных с помощью Leonardo.ai (Flow State). Все изображения имеют формат 1:1, цыпленок изображен на белом фоне и располагается на зеленой траве.

Список использованных в проекте инструментов:

— Leonardo.Ai — создание датасета из изображений цыпленка; — Stable Diffusion XL — обучение генеративной нейросети под свой стиль; — Google Colab (GPU T4) — среда выполнения кода и обучения модели; — BLIP (Salesforce) — автоматическая генерация текстовых подписей к изображениям — LoRA — метод дообучения модели под конкретный объект; — HuggingFace — платформа для хранения и публикации обученных весов LoRA

Исходные изображения

Описание процесса обучения

Сначала потребовалось загрузить все необходимые библиотеки. Я установила bitsandbytes, transformers, accelerate, peft, datasets и diffusers из последней версии на GitHub, а также скачала скрипт обучения train_dreambooth_lora_sdxl.py 

Далее нужно было загрузить изображения в Google Colab. Я использовала встроенную функцию  files.upload () — она открыла диалог выбора файлов, через который я загрузила все 30 изображений цыплёнка в папку  fluffy_chick/

Следующим шагом была подготовка датасета. С помощью модели BLIP (Salesforce) каждому изображению автоматически присваивалась текстовая подпись. К каждой подписи добавлялся префикс с триггерным словом: «a cute illustration of FLUFFY chick». Все подписи сохранялись в файл  metadata.jsonl

Затем я настроила среду через accelerate config и авторизовалась на HuggingFace Hub для последующей публикации модели.

Original size 1606x734

Самый важный этап — обучение модели. Я дообучила Stable Diffusion XL методом DreamBooth + LoRA на GPU T4 в Google Colab. Параметры обучения: 600 шагов, learning rate 1e-4, разрешение 512×512, mixed precision fp16 и 8-bit Adam для экономии видеопамяти. Обученные веса LoRA были автоматически сохранены на HuggingFace Hub.

После обучения я загрузила обученную LoRA и генерировала изображения с разными промптами, всегда используя триггерное слово FLUFFY. Персонаж помещался в разные сцены: летний луг, зима, пляж, облако, кухня и другие. Всего было сгенерировано 8 итоговых изображений, которые я сохранила в ZIP-архив.

Original size 982x682

Итог

post

Модель успешно усвоила ключевые черты персонажа: пушистую жёлтую форму, характерные пропорции и cute-стилистику. В серии из 8 изображений FLUFFY был помещён в разные контексты — летний луг, зима со снегом, пляж, уютная кухня, облако — при этом персонаж остаётся узнаваемым в каждом кадре.

post

Вариации между изображениями проявляются в освещении, фоне и деталях окружения, тогда как стиль и облик персонажа остаются консистентными. Это подтверждает, что метод DreamBooth + LoRA эффективно работает для обучения под конкретный персонаж даже на небольшом датасете из 30 изображений.

Fluffy
Project created at 24.03.2026
We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more