
В данном проекте будут расмотрены данные о самых популярных книгах для обмена.
Выбор данных и источник
Для анализа я выбрала датасет «Top 1000 Most Swapped Books», содержащий информацию о 1000 наиболее обмениваемых книг в международной библиотечной сети.
Датасет включает следующие параметры: • id, title, author, genre, language • publicationYear, publisher, description • pageCount, tags
Блокнот с кодом и датасет: https://disk.yandex.ru/d/Zu7zwU6fEDAU8A
Почему эта тема интересна?
Анализ популярных книг для обмена раскрывает тренды в читательских предпочтениях, демонстрирует, какие жанры и авторы пользуются наибольшим спросом в международной книжной культуре. Это особенно актуально как для дизайнеров (визуальное оформление книг), так и для понимания культурных закономерностей в современном обществе.
Выбранные типы графиков и обоснование:
• Горизонтальная столбчатая диаграмма — для наглядного сравнения жанров • Линейный график — для отображения временных тенденций • Boxplot — для анализа распределений и выбросов • Кольцевая диаграмма (Donut Chart) — для показа долевого распределения языков • Bubble Chart — для многомерного анализа трёх переменных одновременно • Scatter plot — для выявления корреляций между годом и объёмом
Этапы работы и обработка данных
Шаг 1: Загрузка и первичный анализ Шаг 2: Очистка данных Шаг 3: Преобразование типов данных Шаг 4: Стилизация визуализаций
Статистические методы, использованные в анализе:
1. Описательная статистика — value_counts () — для определения частотности жанров и языков — mean (), median () — для расчёта среднего объёма книг — quantile () — для выявления выбросов (99-й процентиль)
2. Группировка и агрегация — groupby () — для анализа по десятилетиям и жанрам — agg () — для расчёта нескольких метрик одновременно
3. Временной анализ — Округление годов в десятилетия для выявления долгосрочных тенденций — Линейная визуализация временных рядов
4. Анализ распределений — Boxplot для выявления медианы, квартилей, выбросов — Scatter plot для обнаружения корреляций между переменными
Итоговые графики и интерпретация
Данные для анализа:
id: Уникальный идентификатор записи в датасете. Используется как первичный ключ для однозначного определения каждой книги.
title: Название книги. Представляет собой основное наименование произведения.
author: Имя автора книги. Используется для анализа популярности авторов и их вклада в различные жанры.
genre: Литературный жанр, к которому относится книга (например, Fantasy, Sci-Fi, Classic и др.). Позволяет классифицировать книги и сравнивать их по тематике.
language: Язык, на котором написана или опубликована книга. Используется для анализа языкового разнообразия и распространённости литературы.
publicationYear: Год публикации книги. Позволяет анализировать временные тренды, эпохи и динамику книжного рынка.
publisher: Издательство, выпустившее книгу. Используется для анализа роли издательств и их представленности в датасете.
description: Краткое описание сюжета или аннотация книги. Представляет собой текстовые данные, которые могут быть использованы для тематического анализа или обработки естественного языка.
pageCount: Общее количество страниц в книге. Характеризует объём произведения и может использоваться для сравнения книг по длине.
tags: Набор тегов, описывающих ключевые темы и мотивы книги (например, magic, school, adventure). Используется для более детальной тематической классификации.
Обработка данных
В датасете есть пропуски, а значит их стоит почистить и преобразовать данные
Графики
1. Топ-10 жанров
На горизонтальной столбчатой диаграмме показано количество книг в десяти самых популярных жанрах. По оси X — количество книг, по оси Y — жанры.
Самым представленным жанром является Historical Fiction, за ним следуют Fantasy и Sci-Fi. Жанры Horror и Dystopian встречаются заметно реже
2. Количество книг по десятилетиям
Линейный график показывает, сколько книг в коллекции было опубликовано в каждом десятилетии.
Наблюдается постепенный рост числа книг начиная с середины 20 века, с пиком в районе 1990–2000 годов. После 2010 года количество книг резко снижается, что, вероятно, связано с неполнотой данных за последние годы
3. Распределение количества страниц по жанрам (топ-8)
Boxplot показывает распределение числа страниц для восьми наиболее популярных жанров.
Жанры Fantasy и Historical Fiction имеют наибольший разброс и самые «толстые» книги. Children’s Fiction отличается наименьшим объёмом и малым разбросом, что логично для детской литературы. Остальные жанры находятся в среднем диапазоне по количеству страниц.
4. Языки книг
Кольцевая диаграмма показывает распределение книг по языкам.
Абсолютное большинство книг написано на английском языке (более 99%). Остальные языки представлены крайне слабо. Это говорит о сильном смещении коллекции в сторону англоязычной литературы.
5. Средний объём книг по десятилетиям
По оси X — десятилетия, по оси Y — среднее количество страниц. Размер пузыря отражает число книг в соответствующем десятилетии.
Со временем средний объём книг увеличивается: более современные книги в среднем длиннее. Самые крупные пузыри находятся в конце 20 — начале 21 века, что указывает на наибольшее количество книг в эти периоды.
6. Год публикации и объём книги (топ-4 жанра)
Каждая точка — отдельная книга. Цветом обозначен жанр. По оси X — год публикации, по оси Y — количество страниц.
У всех жанров наблюдается тенденция к увеличению объёма книг в более поздние годы. Fantasy и Historical Fiction чаще имеют книги с большим числом страниц, тогда как Romance и Sci-Fi более компактны, но также демонстрируют рост объёма со временем.
Описание применения генеративной модели
Модель: DeepSeek (версия последней доступной на момент работы)
Способ применения: Консультирование и проверка кода
Цели использования ИИ: 1. Валидация синтаксиса Python кода и проверка логики обработки данных 2. Оптимизация запросов к DataFrame и повышение эффективности анализа 3. Генерация описаний графиков и статистических интерпретаций 4. Консультирование по лучшим практикам визуализации данных в Matplotlib
Примеры промптов: - «Как правильно обработать выбросы в данных о количестве страниц?» - «Какой тип графика лучше всего подходит для показа связи между временем и объёмом?» - «Как в Pandas группировать данные по десятилетиям?»
Использование ИИ значительно ускорило процесс разработки и повысило качество кода, однако все решения о структуре анализа, выборе данных и интерпретации результатов принимались самостоятельно.
Ссылка на модель: https://deepseek.com
Вывод
Анализ визуализаций показывает, что библиотечная коллекция преимущественно состоит из англоязычных книг и ориентирована на историческую и фантастическую литературу. Большая часть книг была опубликована во второй половине 20 и начале 21 века, причём именно в этот период наблюдается и наибольшее количество произведений. Со временем книги становятся более объёмными, особенно в таких жанрах, как Fantasy и Historical Fiction. В целом коллекция выглядит современной, жанрово разнообразной, но языково однородной, с явным акцентом на популярные и масштабные литературные направления.
Список литературы
1. Deepseek 2. Kaggle.com