Описание идеи
Всю свою сознательную жизнь мне нравилось прикладное искусство и всё, что с ним связано. Поэтому мне захотелось обучить генеративную нейросеть Stable Diffusion собственной технике бумажного коллажирования с простой газетой.

Проект «Моя бабушка курит трубку»
В качестве референсов для обучения своей модели я взяла несколько сканов коллажей, которые я делала для проекта в рамках курса по арт-практике. Все изображения связывает единый стиль, ограниченная палитра цветов, минимализм и акцентный красный цвет.
Поскольку исходные работы состоят из достаточно простых и понятных форм, я решила ограничиться небольшим количеством референсов, которые все заранее поместила в отдельную папку на диске.
Изображения из датасета, проект «Моя бабушка курит трубку»
При работе над проектом главной задачей было понять, по какому принципу работает обучение нейросетевой модели, так как я только новичок в сфере генеративно-нейросетевых технологий.
Список использованных инструментов:
· Hugging Face — аутентификация, получение токена для обучения, загрузка модели на сайт:
· Stable Diffusion — обучение генеративной нейросетевой модели под стиль коллажа;
· Google Colab — среда для написания кода;
· Photoshop — оформление всего проекта.
Описание процесса обучения
Сначала я загрузила все необходимые библиотеки: Diffusers, DreamBooth и др., на которых строилось дальнейшее обучение моей генеративной модели.
Установка необходимых для обучения библиотек
Скачивание обучающего скрипта DreamBoth для диффузоров SDXL
Далее необходимо было выгрузить все мои изображения-референсы в Google Colab, для дальнейшего обучения нейронки стилю по ним.
Загрузка изображений-референсов в среду Google Colab
После того, как я проверила, что все изображения открываются, я воспользовалась мультимедийной моделью BLIP от Hugging Face, которая помогла мне сгенерировать автоматические подписи.
Проверка видимости изображений, превью нескольких референсов
Генерация подписей к изображениям при помощи модели BLIP
После этого я обратилась к папке и настроила префикс для каждой подписи. Таким образом у меня получились полноценные промпты.
Настройка префикса для промптов к изображениям
Для дальнейшей работы с моделью я создала личный аккаунт на Hugging Face, получила токен с доступом на запись и внесла его в Google Colab.
Учётная запись в Hugging Face
Передача токена с Hugging Face в среду Google Colab
Наконец, можно было приступить к основному этапу. Обучение генеративной модели длилось около 40 минут. В результате вышла полностью обученная модель, которую в дальнейшем легко можно использовать для дальнейших генераций новых изображений в стиле бумажного коллажа.
Основной этап обучения генеративной модели
В конце работы я задала необходимые параметры для выхода на директорий Hugging Face, а также сохранила обученную модель в репозиторий.
Выход на директорий Hugging Face, сохранение модели в репозиторий
Успешное сохранение обученной модели в репозиторий
Карта сохранённой модели на Hugging Face
После завершения работы над кодом я приступила к генерации новых изображений в стиле коллажа. Для этого вводила промпты в отдельную строку.
Генерация изображений по промпту
Серия сгенерированных изображений
Для того, чтобы попробовать модель в действии, я решила сначала взять простые промпты, чтобы понять насколько хорошо сработало всё обучение. Первые два изображения получились достаточно запутанными и хаотичными, такой результат меня не полностью устроил, поэтому я начала думать, как улучшить принцип составления промптов.
Первые попытки генераций изображений. Промпты: «photo in COLLAGE style, black cat on the window with curtains», «photo in COLLAGE style, old man with short hair»
Сначала попробовала писать промпт без префикса «photo in COLLAGE style». В некоторых случаях это действительно срабатывало, в итоге изображение становилось лучше. Но иногда без этой приставки нейросеть уходила слишком далеко от стилистики референсов, поэтому дальше я решила оставить префикс, но делать промпты более детальными.
Генерация изображений через один промпт с использованием префикса / без него: «photo in COLLAGE style, still life with dishes and fruits» / «still life with dishes and fruits»
Для сравнения делала две генерации по одному промпту: первое изображение с использованием префикса «photo in COLLAGE style» , второе — без.
Генерация изображений через один промпт с использованием префикса / без него: «photo in COLLAGE style, table with a lamp and books» / «table with a lamp and books»
Генерация изображений через один промпт с использованием префикса / без него: «photo in COLLAGE style, urban landscape with the sun» / «urban landscape with the sun»
Завершающими генерациями стали также простые сюжеты, в основе которых лежит один конкретный объект. Поскольку стиль сам по себе интересный и сложный, думаю, что для моей модели больше подойдут простые и несложные промпты, чтобы картинка не получалась очень перегруженной.
Промпт: «photo in COLLAGE style, cup of tea, tea time»
Промпт: «photo in COLLAGE style, big tree with leaves»
Промпт: «photo in COLLAGE style, grandma smokes a pipe»
Это был классный опыт работы с нейросетями, и я рада, что у меня получился хороший результат, который полностью передаёт мой стиль коллажа.
В результате работы над проектом получилась серия изображений в едином стиле бумажного коллажа. Мне очень понравилось, что в итоговых генерациях возникает интересный оптический эффект: чем больше смотришь, тем больше видишь и замечаешь разных деталей.


















