Original size 1140x1600

Миса | Обучение генеративной нейросети

PROTECT STATUS: not protected
The project is taking part in the competition

Идея проекта

Целью проекта было обучить генеративную нейросеть Stable Diffusion рисовать кошки Мисы.

Миса — шотландская прямоухая кошка. Обладает круглыми жёлтыми глазами и мраморным серым окрасом.

Примеры исходных изображений

Original size 1240x300

Процесс обучения

Я взяла исходный код, предоставленный в здании, и адаптировала его под свои задачи.

Первая попытка генерации оказалась неудачной: нейросеть правильно воссоздала узнаваемость Мисы, но получился сырой результат: поза и композиция не считывались, что говорило о том, что модель недоучена.

0

prompt: «a photo of TOK cat Misa in a bucket at the beach»

Затем я переработала исходный датасет с фотографиями Мисы и повторно обучила нейросеть. Однако мои усилия ограничивались возможностями Google Colab, который не позволял проводить обучение на больших шагах.

Original size 1061x187

Результат улучшился: форма мордочки стала более стабильной, глаза и окрас легко распознаются. Однако выражение морды всё ещё казалось странным, как будто модель была недостаточно обучена из-за лимитов памяти Google Colab.

prompt: «a photo of TOK cat Misa»

Итоговые изображения

Original size 920x300

prompt: «a photo of TOK cat Misa, fluffy gray tabby cat, yellow eyes a photo of TOK cat Misa, wearing a wizard hat, sitting in a magical forest, glowing particles, cinematic lighting»

prompt: «a photo of TOK cat Misa, fluffy gray tabby cat, yellow eyes holding a small cup of coffee, cozy morning»

Original size 920x300

prompt: «a photo of TOK cat Misa, fluffy gray tabby cat, yellow eyes with sunglasses, cool cat, summer vibe»

prompt: «a photo of TOK cat Misa, fluffy gray tabby cat, yellow eyes with a laptop, programmer cat, coding»

Original size 920x300

prompt: «a photo of TOK cat Misa, fluffy gray tabby cat, yellow eyes in a cyberpunk city, neon lights»

prompt: «a photo of TOK cat Misa, fluffy gray tabby cat, yellow eyes playing with yarn ball, dynamic motion»

Original size 920x300

prompt: «… wearing a tiny wizard hat, magical atmosphere, glowing particles /… in a chef hat, in a kitchen, surrounded by food /… wearing a crown, royal cat, sitting on a throne»

prompt: «a photo of TOK cat Misa, fluffy gray tabby cat, yellow eyes in a medieval castle»

Вывод

Original size 920x300

prompt: «a photo of TOK cat Misa, fluffy gray tabby cat, yellow eyes in a Japanese garden, cherry blossoms»

Нейросеть научилась передавать некоторые черты внешности Мисы, но не смогла достичь идеального сходства с оригиналом. Она до сих пор не до конца понимает строение тела кошки, а также периодически искажает её морду.

В конечном итоге я довольна результатом, получившимся в условиях ограниченных ресурсов для обучения модели и генерации изображений. Миса получается очень забавной и фотогеничной!

Original size 920x300
Миса | Обучение генеративной нейросети
Project created at 23.03.2026
We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more