Original size 2280x3200

обучение генеративной нейросети для воссоздания стиля анри матисса

PROTECT STATUS: not protected
3

концепция

post

меня всегда впечатляла манера письма анри матисса и казалось, что ее никто не сможет повторить, поэтому я решила обучить нейросеть его стилю

меня интересовало какие детали нейронка сможет повторить, а какие проигнорирует, было понятно, что точного попадания в стиль скорее всего не будет, особенно на таких трудных моментах как изображения рук и лиц, но результат превзошел мои ожидания

проект выполнен с использованием Stable Diffusion и Hugging Face, генерации проводились в Google Colab

для начала я собрала датасет из 30 картин художника, большинство из них написаны в стиле фовизм. я выделила некоторые пункты, по попаданию в которые можно будет судить о том, получилось ли у нейронки повторить автора

0

некоторые изображения из датасета

среди этих пунктов самое явное:

(1) яркие контрастные цвета, являющиеся главной частью картины (2) живой хаотичный стиль письма, (3) нарушенные пропорции и анатомия, а также упор на передачу эмоции, а не достоверное изображение действительности, что достигается за счет отсутствия линейной перспективы и светотени

процесс обучения

для начала я загрузила несколько библиотек, помогающих работать с Hugging Face, а также скрипт для обучения модели DreamBooth и датасет с изображениями художника

big
Original size 1837x568

проверка правильности загрузки изображений

для тренировки было выбрано разрешение размером 512, batch_size 2, выставлен максимальный шаг тренинга на 500

Original size 1837x568

тренировка модели

опытным путем удалось выяснить, что при увеличении параметра checkpointing_steps качество генерации ухудшается, отчего было принято решение снизить его с 500 до 250

Original size 1837x568

результат генерации с checkpointing_steps=250 и checkpointing_steps=500

на тестовой генерации стало понятно, что нейросети удалось уловить общий стиль художника, поэтому я продолжила углубляться в детали и генерировать другие сюжеты

Original size 1837x568

процесс генерации по заданному промпту

итоговые картинки

Original size 756x761

результат генерации с промптом artwork in anry matt artstyle, a painting of a tree with leaves and a bird

Original size 1837x568

результаты генерации с промптами painting of childred playing // painting of a man in the garden // a painting of a woman with a flower in her hair

для максимально точной проверки нейросети я решила взять уже имеющийся сюжет (натюрморт) и сравнить оригинальную работу с сгенерированной

Original size 1837x763

результат генерации с промптом a painting of fruits on a table // натюрморт из исходного датасета

заметно, что, несмотря на похожую стилистику картин, у изображений очевидно разные авторы

нейросеть не смогла передать контрастные сиреневые краски в тенях, потеряла направление мазка, замылив все изображение, а также картина потеряла эмоциональную окраску, став обычным натюрмортом, на котором цвет является не самостоятельной частью произведения искусства, а только вспомогательной, полностью теряя идею фовизма

Original size 764x760

результат генерации с промптом a painting of fruits on a table

Original size 1837x763

результат генерации с промптом a painting of yellow flowers in a white vase // натюрморт из исходного датасета

в этом сравнении также заметно как нейросеть копирует общую форму, но не углубляется в детали, отчего сгенерированный результат выглядит более блеклым и неживым

Original size 1837x763

картины анри матисса

в генерации изображения людей появились предсказуемые проблемы с количеством пальцев на руках (и самих рук), что выдает нейронку

Original size 1551x763

результат генерации с промптами a woman in a red dress // blue painting of a woman in blue dress

однако нейросеть приблизилась к изображению однотонного пятнистого фона, а также нейтрального выражения лица у героинь

Original size 1837x763

результат генерации с промптами sunny glade with lake // green painting of garden with red flowers

Original size 1837x763

картины анри матисса

на сравнении пейзажей также видно, что нейросеть уменьшает диапазон используемых оттенков, делая картины более однотонными и монотонными

выводы

при поверхностном взгляде кажется, что сгенерированные картины сильно похожи, нейросеть может повторить стиль автора, но она не улавливает деталей смысла каждого конкретного стиля или течения, не понимает что и зачем копирует, и, соответственно, пока что не может воспроизводить изображения на уровне человека

код

обучение генеративной нейросети для воссоздания стиля анри матисса
3
We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more