Обучение генеративной нейросети под свой стиль на Deziiign

Идея проекта

Уже много лет, меня как художника мучает один вопрос. А есть ли у меня свой стиль? Опрос знакомых и самого себя не дает точных ответов и я подумала, что можно попробовать сделать этот проект, обучая нейросеть по своим рисункам. Основные причины были практические. Я смогу узнать свою изюминку, наблюдая за получившимися работами, также свои работы было проще найти в хорошем качестве и необходимом количестве, я могу использовать наработки как угодно и дорабатывать при необходимости для разных творческих задач.

Исходные изображения

Полученные изображения

Для обучения Stable Diffusion я видоизменяла исходный код после курса в Google Collab.

Первый раз я обучала пробно на 23 изображениях. После на 69.

При 23 изображениях я доходила до 1000 ступеней обучения с чекпоинтом в 250, но когда их стало намного больше, оперативной памяти ГП в Google Collab не хватало, поэтому я понизила их до 200 и делала чекпоинт на 100.

Для генераций промптов исходных изображений использовался BLIP, а для обучения LoRA, как и в исходном коде, порядок я не меняла.

В запросах нейросети я пробовала задачи двух типов: похожие на те работы, что я обычно рисую (портреты девушек и парней, соответственно, начало для запросов было «portrait in KUROYUKI style»), а также не стандартные и наблюдала за тем, как нейросеть будет реагировать. Также я пробовала короткие запросы из пары словосочетаний и подробные.

Примеры:

«Magic girl»

«Students in a dorm are doing a project on neural networks, a gloomy atmosphere in gray-blue tones. All the students are looking at the laptop, numbers are flying out of it and a green light with magic is coming. Golden lights around.»

1000 шагов (23 изображения)

500 шагов (23 изображения)

200 шагов (69 изображений)

100 шагов (69 изображений)

По моему личному мнению, нейросеть больше справилась с попаданием в мой стиль с меньшим количеством изображений, но большим количеством ступеней обучения. При этом, мне понравился вариант, где было всего 100 ступеней, но много изображений, там мой стиль с примесью уже обученной моделью дает интересный фильтр.

Мне кажется, нейросеть смога выделить много характерных черт в деталях, как рисование волос, носов и в целом шейдинг был очень похож. При этом цвета придумывать ей немного сложно и были лучше, когда обучение производилось с большим количеством изображений.

А еще я теперь ловлю от части генераций эффект зловещей долины, потому что они и правда выглядят так, будто я что-то обрисовывала, но очень быстро…

Блокнот и датасет