Original size 1140x1600

Книги в цифрах

PROTECT STATUS: not protected
2
big
Original size 1920x1080

Введение

Чтение книг остаётся одним из самых универсальных способов познания мира и самовыражения. Сегодня литературные предпочтения формируются под влиянием множества факторов: от жанровых мод и культурных трендов до личных интересов читателей и доступности произведений. Мне стало интересно, какие книги получают наибольшее признание, как жанры конкурируют между собой и какие авторы стабильно удерживают внимание аудитории. Такой анализ помогает лучше понять динамику литературного рынка и может быть полезен издателям, книжным сервисам и исследователям медиа.

Для работы я использовал данные из датасета Goodreads Books, опубликованного на Kaggle. В нём собрана информация о десятках тысяч произведений: названия, авторы, жанры, годы издания, рейтинги и другие характеристики. Эти данные дают возможность не только выявить наиболее популярные направления, но и проследить, как менялись вкусы читателей на протяжении времени.

Визуализация представлена в виде разных типов диаграмм:

  1. столбчатая — для отображения популярности жанров и зависимости кол-ва книг
  2. круговая — для анализа языковой доли в литературе
  3. точечная диаграмма — для поиска связей между объёмом книги и рейтингом
  4. линейчатая — для отслеживания динамики публикаций по годам издания

Подобранные форматы помогают сделать выводы максимально наглядными и выявить определенные тенденции в литературном мире.

Визуальный стиль

big
Original size 1920x1080

Эта палитра подходит для брендинга проекта по анализу книг, потому что сочетает академичную строгость и уют. Холодные сине-голубые тона подчеркивают серьёзность и интеллектуальность, а тёплые добавляют уюта и ассоциаций с чтением, а акцентный красный символизирует страсть к знаниям.

Для оформления проекта выбрана трендовая инфографика, созданная с помощью единого промта в ChatGPT

Этапы работы

Original size 1920x1080

Топ-10 самых популярных жанров

Original size 1280x847

Столбчатая диаграмма Топ-10 жанров по кол-ву книг

Original size 878x204
Original size 1280x847

Столбчатая диаграмма среднего рейтинга топ-10 жанров

Original size 1252x342
Original size 1280x811

Столбчатая диаграмма сравнения зависимости рейтинга от популярности жанра

Original size 1070x1133

Популярные жанры по количеству написанных книг не всегда совпадают с самыми высоко оценёнными самими читателями. Например, Fiction занимает 1 место по количеству книг, но лишь 7 место по среднему рейтингу.

Зависимость рейтинга от количества страниц

Original size 1280x851

Точечная диаграмма зависимости рейтинга книг и кол-ва старниц

Original size 1010x434

Рейтинг почти не зависит от количества страниц: график показал слабую разницу, т. к. книги разного объёма получают схожие оценки.Важнее для читателя жанр, автор и т. д.

Форматы книг

Original size 1238x1280

Круговая диаграмма, показывающая долю языков среди всех книг

Original size 810x776

Видно, что подавляющая часть книг представлена на английском языке — он занимает около 80% выборки и уверенно лидирует. Остальные языки, включая немецкий, французский и другие, составляют лишь небольшую долю. Таким образом, англоязычная литература явно доминирует, а книги на других языках встречаются значительно реже.

Динамика по годам публикации

Original size 1280x634

Линейная диаграмма динамики публикаций по годам

Original size 940x524

Диаграмма показывает, что количество книг значительно выросло в XX–XXI веках, особенно в последние десятилетия XX века, но после 2010 года заметен спад, что связано с цифровизацией и сокращением печатных изданий.

Вывод

Original size 1920x1080

В процессе анализа данных о книгах выявлено несколько ключевых тенденций:

Во-первых, динамика публикаций по годам отражает бурный рост издательской активности в XX–XXI веках, с пиком в начале 2000-х и заметным снижением после 2010 года, что может быть связано с переходом к цифровым форматам.

Original size 1920x1080

Во-вторых, распределение по языкам демонстрирует доминирование английского — на него приходится около 80% всей базы, тогда как книги на других языках занимают лишь небольшие доли. Анализ зависимости рейтинга от количества страниц показал, что объём книги почти не влияет на восприятие читателей: независимо от длины, оценки остаются в среднем в диапазоне 3.9–4.0. Что касается жанров, то в топ-10 по количеству книг лидируют Fiction, Classics, Nonfiction и Fantasy, однако их популярность не всегда совпадает с качественной оценкой: например, Fiction занимает первое место по числу публикаций, но лишь седьмое по среднему рейтингу. Это подчёркивает различие между массовостью жанра и его восприятием читателями.

В результате, данные показывают, что рынок книг подвержен как историческим трендам и языковым доминированием, так и жанровыми предпочтениями читателей, а качество восприятия не всегда коррелирует с количеством изданий.

Применение ИИ

Все иллюстрации были созданы с помощью ChatGPT и обработаны в Adobe Photoshop. Также ChatGPT использовался для генерации кода и помощи в анализе данных.

Original size 1920x1080

Ссылки

1. База данных Goodreads: Analysis and Recommending Books 2. База данных Goodreads-books 3. База данных Goodreads-books-with-genres 4. Блокнот

Книги в цифрах
2
We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more