Original size 2280x3200

обучение генеративной нейросети для воссоздания стиля анри матисса

концепция

меня всегда впечатляла манера письма анри матисса и казалось, что ее никто не сможет повторить, поэтому я решила обучить нейросеть его стилю

меня интересовало какие детали нейронка сможет повторить, а какие проигнорирует, было понятно, что точного попадания в стиль скорее всего не будет, особенно на таких трудных моментах как изображения рук и лиц, но результат превзошел мои ожидания

проект выполнен с использованием Stable Diffusion и Hugging Face, генерации проводились в Google Colab

для начала я собрала датасет из 30 картин художника, большинство из них написаны в стиле фовизм. я выделила некоторые пункты, по попаданию в которые можно будет судить о том, получилось ли у нейронки повторить автора

некоторые изображения из датасета

среди этих пунктов самое явное:

(1) яркие контрастные цвета, являющиеся главной частью картины (2) живой хаотичный стиль письма, (3) нарушенные пропорции и анатомия, а также упор на передачу эмоции, а не достоверное изображение действительности, что достигается за счет отсутствия линейной перспективы и светотени

процесс обучения

для начала я загрузила несколько библиотек, помогающих работать с Hugging Face, а также скрипт для обучения модели DreamBooth и датасет с изображениями художника

Original size 1837x568

проверка правильности загрузки изображений

для тренировки было выбрано разрешение размером 512, batch_size 2, выставлен максимальный шаг тренинга на 500

Original size 1837x568

тренировка модели

опытным путем удалось выяснить, что при увеличении параметра checkpointing_steps качество генерации ухудшается, отчего было принято решение снизить его с 500 до 250

Original size 1837x568

результат генерации с checkpointing_steps=250 и checkpointing_steps=500

на тестовой генерации стало понятно, что нейросети удалось уловить общий стиль художника, поэтому я продолжила углубляться в детали и генерировать другие сюжеты

Original size 1837x568

процесс генерации по заданному промпту

итоговые картинки

Original size 756x761

результат генерации с промптом artwork in anry matt artstyle, a painting of a tree with leaves and a bird

Original size 1837x568

результаты генерации с промптами painting of childred playing // painting of a man in the garden // a painting of a woman with a flower in her hair

для максимально точной проверки нейросети я решила взять уже имеющийся сюжет (натюрморт) и сравнить оригинальную работу с сгенерированной

Original size 1837x763

результат генерации с промптом a painting of fruits on a table // натюрморт из исходного датасета

заметно, что, несмотря на похожую стилистику картин, у изображений очевидно разные авторы

нейросеть не смогла передать контрастные сиреневые краски в тенях, потеряла направление мазка, замылив все изображение, а также картина потеряла эмоциональную окраску, став обычным натюрмортом, на котором цвет является не самостоятельной частью произведения искусства, а только вспомогательной, полностью теряя идею фовизма

Original size 764x760

результат генерации с промптом a painting of fruits on a table

Original size 1837x763

результат генерации с промптом a painting of yellow flowers in a white vase // натюрморт из исходного датасета

в этом сравнении также заметно как нейросеть копирует общую форму, но не углубляется в детали, отчего сгенерированный результат выглядит более блеклым и неживым

Original size 1837x763

картины анри матисса

в генерации изображения людей появились предсказуемые проблемы с количеством пальцев на руках (и самих рук), что выдает нейронку

Original size 1551x763

результат генерации с промптами a woman in a red dress // blue painting of a woman in blue dress

однако нейросеть приблизилась к изображению однотонного пятнистого фона, а также нейтрального выражения лица у героинь

Original size 1837x763

результат генерации с промптами sunny glade with lake // green painting of garden with red flowers

Original size 1837x763

картины анри матисса

на сравнении пейзажей также видно, что нейросеть уменьшает диапазон используемых оттенков, делая картины более однотонными и монотонными

выводы

при поверхностном взгляде кажется, что сгенерированные картины сильно похожи, нейросеть может повторить стиль автора, но она не улавливает деталей смысла каждого конкретного стиля или течения, не понимает что и зачем копирует, и, соответственно, пока что не может воспроизводить изображения на уровне человека

код

https://colab.research.google.com/drive/15uKsAZnE8Ifu-g_XxIdfghGiygayhPRt?hl=ru

обучение генеративной нейросети для воссоздания стиля анри матисса

Valeriya Tokmacheva

artificial intelligence

We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...