
концепция

меня всегда впечатляла манера письма анри матисса и казалось, что ее никто не сможет повторить, поэтому я решила обучить нейросеть его стилю
меня интересовало какие детали нейронка сможет повторить, а какие проигнорирует, было понятно, что точного попадания в стиль скорее всего не будет, особенно на таких трудных моментах как изображения рук и лиц, но результат превзошел мои ожидания
проект выполнен с использованием Stable Diffusion и Hugging Face, генерации проводились в Google Colab
для начала я собрала датасет из 30 картин художника, большинство из них написаны в стиле фовизм. я выделила некоторые пункты, по попаданию в которые можно будет судить о том, получилось ли у нейронки повторить автора
некоторые изображения из датасета
среди этих пунктов самое явное:
(1) яркие контрастные цвета, являющиеся главной частью картины (2) живой хаотичный стиль письма, (3) нарушенные пропорции и анатомия, а также упор на передачу эмоции, а не достоверное изображение действительности, что достигается за счет отсутствия линейной перспективы и светотени
процесс обучения
для начала я загрузила несколько библиотек, помогающих работать с Hugging Face, а также скрипт для обучения модели DreamBooth и датасет с изображениями художника

проверка правильности загрузки изображений
для тренировки было выбрано разрешение размером 512, batch_size 2, выставлен максимальный шаг тренинга на 500
тренировка модели
опытным путем удалось выяснить, что при увеличении параметра checkpointing_steps качество генерации ухудшается, отчего было принято решение снизить его с 500 до 250
результат генерации с checkpointing_steps=250 и checkpointing_steps=500
на тестовой генерации стало понятно, что нейросети удалось уловить общий стиль художника, поэтому я продолжила углубляться в детали и генерировать другие сюжеты
процесс генерации по заданному промпту
итоговые картинки
результат генерации с промптом artwork in anry matt artstyle, a painting of a tree with leaves and a bird
результаты генерации с промптами painting of childred playing // painting of a man in the garden // a painting of a woman with a flower in her hair
для максимально точной проверки нейросети я решила взять уже имеющийся сюжет (натюрморт) и сравнить оригинальную работу с сгенерированной
результат генерации с промптом a painting of fruits on a table // натюрморт из исходного датасета
заметно, что, несмотря на похожую стилистику картин, у изображений очевидно разные авторы
нейросеть не смогла передать контрастные сиреневые краски в тенях, потеряла направление мазка, замылив все изображение, а также картина потеряла эмоциональную окраску, став обычным натюрмортом, на котором цвет является не самостоятельной частью произведения искусства, а только вспомогательной, полностью теряя идею фовизма
результат генерации с промптом a painting of fruits on a table
результат генерации с промптом a painting of yellow flowers in a white vase // натюрморт из исходного датасета
в этом сравнении также заметно как нейросеть копирует общую форму, но не углубляется в детали, отчего сгенерированный результат выглядит более блеклым и неживым
картины анри матисса
в генерации изображения людей появились предсказуемые проблемы с количеством пальцев на руках (и самих рук), что выдает нейронку
результат генерации с промптами a woman in a red dress // blue painting of a woman in blue dress
однако нейросеть приблизилась к изображению однотонного пятнистого фона, а также нейтрального выражения лица у героинь
результат генерации с промптами sunny glade with lake // green painting of garden with red flowers
картины анри матисса
на сравнении пейзажей также видно, что нейросеть уменьшает диапазон используемых оттенков, делая картины более однотонными и монотонными
выводы
при поверхностном взгляде кажется, что сгенерированные картины сильно похожи, нейросеть может повторить стиль автора, но она не улавливает деталей смысла каждого конкретного стиля или течения, не понимает что и зачем копирует, и, соответственно, пока что не может воспроизводить изображения на уровне человека
код