Original size 1750x2480

Библиотека обмена: анализ 1000 самых популярных книг

PROTECT STATUS: not protected
The project is taking part in the competition

В данном проекте будут расмотрены данные о самых популярных книгах для обмена.

Выбор данных и источник

Для анализа я выбрала датасет «Top 1000 Most Swapped Books», содержащий информацию о 1000 наиболее обмениваемых книг в международной библиотечной сети.

Датасет включает следующие параметры: • id, title, author, genre, language • publicationYear, publisher, description • pageCount, tags

Блокнот с кодом и датасет: https://disk.yandex.ru/d/Zu7zwU6fEDAU8A

Почему эта тема интересна?

Анализ популярных книг для обмена раскрывает тренды в читательских предпочтениях, демонстрирует, какие жанры и авторы пользуются наибольшим спросом в международной книжной культуре. Это особенно актуально как для дизайнеров (визуальное оформление книг), так и для понимания культурных закономерностей в современном обществе.

Выбранные типы графиков и обоснование:

• Горизонтальная столбчатая диаграмма — для наглядного сравнения жанров • Линейный график — для отображения временных тенденций • Boxplot — для анализа распределений и выбросов • Кольцевая диаграмма (Donut Chart) — для показа долевого распределения языков • Bubble Chart — для многомерного анализа трёх переменных одновременно • Scatter plot — для выявления корреляций между годом и объёмом

Этапы работы и обработка данных

Шаг 1: Загрузка и первичный анализ Шаг 2: Очистка данных Шаг 3: Преобразование типов данных Шаг 4: Стилизация визуализаций

Статистические методы, использованные в анализе:

1. Описательная статистика  — value_counts () — для определения частотности жанров и языков  — mean (), median () — для расчёта среднего объёма книг  — quantile () — для выявления выбросов (99-й процентиль)

2. Группировка и агрегация  — groupby () — для анализа по десятилетиям и жанрам  — agg () — для расчёта нескольких метрик одновременно

3. Временной анализ  — Округление годов в десятилетия для выявления долгосрочных тенденций  — Линейная визуализация временных рядов

4. Анализ распределений  — Boxplot для выявления медианы, квартилей, выбросов  — Scatter plot для обнаружения корреляций между переменными

Итоговые графики и интерпретация

Original size 420x106

Данные для анализа:

id: Уникальный идентификатор записи в датасете. Используется как первичный ключ для однозначного определения каждой книги.

title: Название книги. Представляет собой основное наименование произведения.

author: Имя автора книги. Используется для анализа популярности авторов и их вклада в различные жанры.

genre: Литературный жанр, к которому относится книга (например, Fantasy, Sci-Fi, Classic и др.). Позволяет классифицировать книги и сравнивать их по тематике.

language: Язык, на котором написана или опубликована книга. Используется для анализа языкового разнообразия и распространённости литературы.

publicationYear: Год публикации книги. Позволяет анализировать временные тренды, эпохи и динамику книжного рынка.

publisher: Издательство, выпустившее книгу. Используется для анализа роли издательств и их представленности в датасете.

description: Краткое описание сюжета или аннотация книги. Представляет собой текстовые данные, которые могут быть использованы для тематического анализа или обработки естественного языка.

pageCount: Общее количество страниц в книге. Характеризует объём произведения и может использоваться для сравнения книг по длине.

tags: Набор тегов, описывающих ключевые темы и мотивы книги (например, magic, school, adventure). Используется для более детальной тематической классификации.

Обработка данных

Original size 287x48
Original size 883x773
Original size 761x87
Original size 1919x526

В датасете есть пропуски, а значит их стоит почистить и преобразовать данные

Original size 255x54
Original size 246x50
Original size 929x1199

Графики

Original size 908x644

1. Топ-10 жанров

Original size 686x210
Original size 865x470

На горизонтальной столбчатой диаграмме показано количество книг в десяти самых популярных жанрах. По оси X — количество книг, по оси Y — жанры.

Самым представленным жанром является Historical Fiction, за ним следуют Fantasy и Sci-Fi. Жанры Horror и Dystopian встречаются заметно реже

2. Количество книг по десятилетиям

Original size 745x371
Original size 841x470

Линейный график показывает, сколько книг в коллекции было опубликовано в каждом десятилетии.

Наблюдается постепенный рост числа книг начиная с середины 20 века, с пиком в районе 1990–2000 годов. После 2010 года количество книг резко снижается, что, вероятно, связано с неполнотой данных за последние годы

3. Распределение количества страниц по жанрам (топ-8)

Original size 645x535
Original size 859x519

Boxplot показывает распределение числа страниц для восьми наиболее популярных жанров.

Жанры Fantasy и Historical Fiction имеют наибольший разброс и самые «толстые» книги. Children’s Fiction отличается наименьшим объёмом и малым разбросом, что логично для детской литературы. Остальные жанры находятся в среднем диапазоне по количеству страниц.

4. Языки книг

Original size 649x414
Original size 558x589

Кольцевая диаграмма показывает распределение книг по языкам.

Абсолютное большинство книг написано на английском языке (более 99%). Остальные языки представлены крайне слабо. Это говорит о сильном смещении коллекции в сторону англоязычной литературы.

5. Средний объём книг по десятилетиям

Original size 947x361
Original size 850x476

По оси X — десятилетия, по оси Y — среднее количество страниц. Размер пузыря отражает число книг в соответствующем десятилетии.

Со временем средний объём книг увеличивается: более современные книги в среднем длиннее. Самые крупные пузыри находятся в конце 20 — начале 21 века, что указывает на наибольшее количество книг в эти периоды.

6. Год публикации и объём книги (топ-4 жанра)

Original size 944x468
Original size 859x476

Каждая точка — отдельная книга. Цветом обозначен жанр. По оси X — год публикации, по оси Y — количество страниц.

У всех жанров наблюдается тенденция к увеличению объёма книг в более поздние годы. Fantasy и Historical Fiction чаще имеют книги с большим числом страниц, тогда как Romance и Sci-Fi более компактны, но также демонстрируют рост объёма со временем.

Описание применения генеративной модели

Модель: DeepSeek (версия последней доступной на момент работы)

Способ применения: Консультирование и проверка кода

Цели использования ИИ: 1. Валидация синтаксиса Python кода и проверка логики обработки данных 2. Оптимизация запросов к DataFrame и повышение эффективности анализа 3. Генерация описаний графиков и статистических интерпретаций 4. Консультирование по лучшим практикам визуализации данных в Matplotlib

Примеры промптов: - «Как правильно обработать выбросы в данных о количестве страниц?» - «Какой тип графика лучше всего подходит для показа связи между временем и объёмом?» - «Как в Pandas группировать данные по десятилетиям?»

Использование ИИ значительно ускорило процесс разработки и повысило качество кода, однако все решения о структуре анализа, выборе данных и интерпретации результатов принимались самостоятельно.

Ссылка на модель: https://deepseek.com

Вывод

Анализ визуализаций показывает, что библиотечная коллекция преимущественно состоит из англоязычных книг и ориентирована на историческую и фантастическую литературу. Большая часть книг была опубликована во второй половине 20 и начале 21 века, причём именно в этот период наблюдается и наибольшее количество произведений. Со временем книги становятся более объёмными, особенно в таких жанрах, как Fantasy и Historical Fiction. В целом коллекция выглядит современной, жанрово разнообразной, но языково однородной, с явным акцентом на популярные и масштабные литературные направления.

Список литературы

1. Deepseek 2. Kaggle.com

We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more