Original size 298x399

Игры разума Петрова-Водкина с ИИ

PROTECT STATUS: not protected
2

Основная идея проекта

post

В основу проекта легла тяга к новым технологиям, была предпринята попытка автоматизировать процесс создания множества изображений в конкретном художественном стиле. Для исследования я выбрала работы известного художника, жившего на стыке XIX–XX веков, Кузьмы Сергеевича Петрова-Водкина, т. к. еще в школе писала реферат по его творчеству и разбирала его произведения, а благодаря облакам у меня сохранилась цифровая коллекция его работ.

post

Работы художника представлены в его собственном уникальном стиле. Настоящим прорывом Кузьмы Сергеевича стали его новаторские творческие приемы. Это так называемая «сферическая перспектива», то есть шарообразная визуализация своих работ и «трехцветие» — совокупность красного, желтого и синего цветов как основных в картинах автора.

post

Для проекта были отобраны 239 работ автора. Все изображения были уменьшены до размера 512×512 пикселей. Такой формат подходит для быстрого обучения StableDiffusion (LoRA) модели, для освоения принципов применения ИИ в творческой индустрии.

post

Обучение модели я производила, работая с кодом на сайте kaggle.com. Далее, для упрощения обработки промптов, мною была написана небольшая программа, позволяющая применять вновь созданный стиль PETROVODKIN к генерации изображений. Очень многие выходные изображения получались с большим наличием красного цвета в фоне или в лицах персонажей. Однако, проанализировав работы художника, я пришла к выводу, что среди его работ присутствует обилие красного.

post

По результатам генерации множества картинок стало ясно, что модель лучше всего передает стиль автора в карандашных набросках. Для изучения модели, кроме готовых картин, были представлены именно работы в карандаше, а также множество эскизов и набросков картин художника. В качестве примера приведу карандашный рисунок портрета Джона Леннона, выполненный в стиле PETROVODKIN. Нейросеть, как и автор, вытягивает лица персонажей на картинах, что видно на многих сгенерированных изображениях.

Обучение модели прошло за 44 минуты, т. к. использовались небольшие картинки

post

По готовой обученной модели мною производились эксперименты по подстройке параметров генерации итоговых изображений. Менялось количество шагов генерации num_inference_steps, показатель интенсивности lora_scale, ориентировочный масштаб guidance_scale. В результате получались разные работы от цветного шума до вполне различимых персонажей. В качестве промпта использовалась произведение «Ленин и печник» (Lenin and the stove maker). Результат данного эксперимента: при уменьшении значений параметров генерации (количества шагов) — снижает качество обработки, а guidance_scale — контролирует, насколько сильно модель следует текстовому промпту. Низкие значения (1-5): Больше «свободы» для модели, но меньше соответствия промпту. Средние значения (5-10): Баланс между креативностью и соответствием промпту. Высокие значения (10-20+): Строгое следование промпту, но возможна перенасыщенность.

0

Варианты генерации изображения в зависимости от настроек обработчика

post

Возникла идея проверить модель на известных лицах как в Казахстане, так и в Мире. Оказалось, что StableDiffusion не сильно знакома с портретами известных казахских писателей, однако в работах явно угадываются национальные черты казахов. Далее предпринимались попытки сгенерировать изображения мировых политиков, лучше всех получился Д. Трамп. В качестве промптов использовались фразы: Donald Trump, in a pencil sketch; Donald Trump, make a great deal with a globe; President of the USA.

0
post

При выполнении кода я столкнулась с рядом проблем, которые не относятся к работе модели, но в тоже время, не давали программе нормально работать. Постоянно выходили ошибки в совместимости различных используемых библиотек, которые приходилось обходить, загружая нужные. Проработку же промптов к каждой картине автора мне пришлось выполнить в google colab, и отдельно загрузить в Kaggle готовый json, так как внутри kaggle запустить процедуру управления BLIP не получилось. Также пришлось ознакомиться с командами Linux из bash (ls, mv, rm, copy, cat, пр.) И в какой-то момент времени мне даже стало казаться, что это курс с элементами Troubleshooting the artificial intelligence industry.

0

Различные ошибки обработки кода, совместимости версий различных библиотек

Выводы

post

Проделав колоссальную работу, я поняла, что ИИ не может заменить живого художника, но при определенных IT знаниях и навыках может быть полезен в качестве разработки новых проектов или использован в качестве эксперимента с разными техниками. Хорошо справляется с монотонной ручной работой. Главное — определить баланс между временем, затраченным на обучение ИИ и временем на ручную обработку. А также я обратила внимание на то, что когда я задаю нейросети задачу создать картину с изображением нескольких человек, она выдает всех людей на одно лицо. Качественное изображение создает только популярных в интернете личностей. Для обучения моделей на картинах, персонажах, известных людях из Казахстана есть ниша которая пока практически не заполнена.

PS:

Соблюдение авторского права.

Авторские права на картину охраняются в течение всей жизни автора, а также в течение 70 лет после его смерти. Отсчет 70 лет начинается с 1 января года, следующего за годом смерти автора. Таким образом работы Кузьмы Сергеевича Петрова-Водкина являются народным достоянием с 1 января 2010 г.

Игры разума Петрова-Водкина с ИИ
2
We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more