

Введение
Чтение книг остаётся одним из самых универсальных способов познания мира и самовыражения. Сегодня литературные предпочтения формируются под влиянием множества факторов: от жанровых мод и культурных трендов до личных интересов читателей и доступности произведений. Мне стало интересно, какие книги получают наибольшее признание, как жанры конкурируют между собой и какие авторы стабильно удерживают внимание аудитории. Такой анализ помогает лучше понять динамику литературного рынка и может быть полезен издателям, книжным сервисам и исследователям медиа.
Для работы я использовал данные из датасета Goodreads Books, опубликованного на Kaggle. В нём собрана информация о десятках тысяч произведений: названия, авторы, жанры, годы издания, рейтинги и другие характеристики. Эти данные дают возможность не только выявить наиболее популярные направления, но и проследить, как менялись вкусы читателей на протяжении времени.
Визуализация представлена в виде разных типов диаграмм:
Подобранные форматы помогают сделать выводы максимально наглядными и выявить определенные тенденции в литературном мире.
Визуальный стиль

Эта палитра подходит для брендинга проекта по анализу книг, потому что сочетает академичную строгость и уют. Холодные сине-голубые тона подчеркивают серьёзность и интеллектуальность, а тёплые добавляют уюта и ассоциаций с чтением, а акцентный красный символизирует страсть к знаниям.
Для оформления проекта выбрана трендовая инфографика, созданная с помощью единого промта в ChatGPT
Этапы работы
Топ-10 самых популярных жанров
Столбчатая диаграмма Топ-10 жанров по кол-ву книг
Столбчатая диаграмма среднего рейтинга топ-10 жанров
Столбчатая диаграмма сравнения зависимости рейтинга от популярности жанра
Популярные жанры по количеству написанных книг не всегда совпадают с самыми высоко оценёнными самими читателями. Например, Fiction занимает 1 место по количеству книг, но лишь 7 место по среднему рейтингу.
Зависимость рейтинга от количества страниц
Точечная диаграмма зависимости рейтинга книг и кол-ва старниц
Рейтинг почти не зависит от количества страниц: график показал слабую разницу, т. к. книги разного объёма получают схожие оценки.Важнее для читателя жанр, автор и т. д.
Форматы книг
Круговая диаграмма, показывающая долю языков среди всех книг
Видно, что подавляющая часть книг представлена на английском языке — он занимает около 80% выборки и уверенно лидирует. Остальные языки, включая немецкий, французский и другие, составляют лишь небольшую долю. Таким образом, англоязычная литература явно доминирует, а книги на других языках встречаются значительно реже.
Динамика по годам публикации
Линейная диаграмма динамики публикаций по годам
Диаграмма показывает, что количество книг значительно выросло в XX–XXI веках, особенно в последние десятилетия XX века, но после 2010 года заметен спад, что связано с цифровизацией и сокращением печатных изданий.
Вывод
В процессе анализа данных о книгах выявлено несколько ключевых тенденций:
Во-первых, динамика публикаций по годам отражает бурный рост издательской активности в XX–XXI веках, с пиком в начале 2000-х и заметным снижением после 2010 года, что может быть связано с переходом к цифровым форматам.
Во-вторых, распределение по языкам демонстрирует доминирование английского — на него приходится около 80% всей базы, тогда как книги на других языках занимают лишь небольшие доли. Анализ зависимости рейтинга от количества страниц показал, что объём книги почти не влияет на восприятие читателей: независимо от длины, оценки остаются в среднем в диапазоне 3.9–4.0. Что касается жанров, то в топ-10 по количеству книг лидируют Fiction, Classics, Nonfiction и Fantasy, однако их популярность не всегда совпадает с качественной оценкой: например, Fiction занимает первое место по числу публикаций, но лишь седьмое по среднему рейтингу. Это подчёркивает различие между массовостью жанра и его восприятием читателями.
В результате, данные показывают, что рынок книг подвержен как историческим трендам и языковым доминированием, так и жанровыми предпочтениями читателей, а качество восприятия не всегда коррелирует с количеством изданий.
Применение ИИ
Все иллюстрации были созданы с помощью ChatGPT и обработаны в Adobe Photoshop. Также ChatGPT использовался для генерации кода и помощи в анализе данных.
Ссылки
1. База данных Goodreads: Analysis and Recommending Books 2. База данных Goodreads-books 3. База данных Goodreads-books-with-genres 4. Блокнот