
Рубрикатор
• Ведение • Обработка и подготовка данных • Выбор типов визуализаций • Изучающий и объясняющий формат визуализации • Статистические методы, использованные в проекте • Стилизация • Вывод • Использование генеративной модели
Введение
Этот датасет выбран потому, что он отражает массовое мнение пользователей о контенте, а не оценки экспертов. Меня заинтересовал вопрос: насколько жанровые особенности и формат произведения соотносятся с пользовательским рейтингом, и можно ли увидеть паттерны в этих данных. Кроме того, тема аниме хорошо подходит для визуального анализа: жанры, типы и рейтинги легко интерпретируются визуально и дают простор для объясняющих графиков.
Для анализа был выбран открытый датасет, посвящённый аниме, состоящий из двух таблиц:
• основной таблицы с метаданными тайтлов (тип, жанры, количество эпизодов, популярность и др.), • таблицы с пользовательскими рейтингами.
Данные представлены в формате CSV и подходят для программной обработки, так как содержат как числовые, так и категориальные признаки, а также достаточно большой объём наблюдений, чтобы выявлять устойчивые закономерности, а не случайные колебания.
Обработка и подготовка данных
• сбор и очистка: объединила таблицы и избавился от «мусора» (пустых строк и ошибок в форматах), • обработка категорий: раскрыла сложные списки жанров. Это позволило корректно подсчитать частоту каждого жанра, даже если они шли вперемешку, • обогащение данных: создала удобные категории рейтингов и объединила данные. Это гарантирует точность итоговых графиков, а не статистические ошибки.
Выбор типов визуализаций
Для анализа были использованы разные типы графиков, каждый из которых решает свою аналитическую задачу:
• точечная диаграмма — отражает взаимосвязь между пользовательским рейтингом аниме и его популярностью (количеством пользователей или участников), • столбчатая диаграмма — используется для сравнения средних пользовательских рейтингов между различными типами аниме, • линейный график — иллюстрирует изменение среднего пользовательского рейтинга в зависимости от количества эпизодов, • гистограмма — отображает распределение пользовательских рейтингов по всему датасету, • скрипичная диаграмма — отображает распределение пользовательских рейтингов по жанрам, включая плотность значений, медиану и разброс, • круговая диаграмма — отражает структуру датасета по жанрам или типам аниме в рамках выбранного поднабора данных, • облако слов — визуализирует частоту появления жанров в датасете: размер каждого слова пропорционален количеству упоминаний;
Такой набор позволяет рассмотреть данные с разных сторон: от общей структуры датасета до более глубокого сравнительного анализа.
Изучающий и объясняющий формат визуализации
Каждая визуализация строилась не как иллюстрация «того, что есть», а как инструмент объяснения:
• графики показывают не только средние значения, но и разброс, плотность и выбросы, • используются диапазоны рейтингов, чтобы избежать упрощения сложных распределений, • жанры анализируются как мультикатегориальные признаки, а не как единичные метки;
Этот метод помогает формировать обоснованные заключения, а не ограничиваться лишь поверхностными наблюдениями.
Статистические методы, использованные в проекте
• Слияние и очистка данных: все данные объединены в таблицу с характеристиками аниме и базу пользовательских оценок и некорректные значения. • Преобразование типов: все числовые показатели были приведены к форматам, пригодным для вычислений. • Нормализация категорий: так как у многих тайтлов указано сразу несколько жанров в одной строке, они были разделены их на отдельные записи. Это позволило честно посчитать популярность каждого жанра в отдельности. • Группировка и агрегация: сгруппированы данные по типам контента и жанрам, чтобы рассчитать средние показатели рейтинга и популярности для каждой категории. • Сегментация: выделен отдельный пласт «высокорейтингового аниме» (8+), чтобы детально изучить структуру жанров именно у топовых проектов. • Частотный анализ: были подсчитаны упоминания жанров и тегов, что легло в основу визуализации их востребованности.
Стилизация
Все визуализации были стилизованы не стандартными настройками Python, а через код:
• изменена цветовая палитра, • задан единый фон и сетка, • настроены подписи осей и заголовки, • соблюдён единый визуальный ритм между графиками.
Цель стилизации — сделать графики частью единого визуального повествования, а не разрозненными техническими иллюстрациями.
Эти цвета были выбраны потому, что они позволяют совместить аналитическую строгость и визуальную выразительность. Светлый бежевый фон создаёт нейтральную основу для восприятия данных, синий и циановый подчёркивают структурность и цифровую природу анализа, а фиолетовые, жёлтые и розовые акценты добавляют ассоциации с аниме-культурой и эмоциональной стороной пользовательских оценок, не перегружая визуальное восприятие.
График 1
График позволяет оценить, существует ли корреляция между популярностью и качеством восприятия контента. Видно, что высокая популярность не всегда гарантирует высокий рейтинг: встречаются как популярные, но средне оценённые тайтлы, так и менее массовые, но высоко оценённые произведения. Это подчёркивает, что пользовательский рейтинг формируется не только за счёт охвата аудитории.
График 2
График наглядно демонстрирует различия между форматами. Некоторые типы аниме стабильно получают более высокие оценки, что может быть связано с особенностями производства, целевой аудиторией или длительностью формата. Диаграмма позволяет быстро сравнить категории и выявить лидеров и аутсайдеров.
График 3
Можно проследить общую тенденцию и заметить, что увеличение количества эпизодов не приводит к линейному росту рейтинга. В некоторых диапазонах рейтинг стабилизируется или даже снижается, что может указывать на эффект «перегруженности» или снижение качества в слишком длинных проектах.
График 4
График позволяет понять, какие значения рейтинга встречаются чаще всего, и оценить форму распределения. Видно, что большинство тайтлов концентрируется в среднем рейтинговом диапазоне, а крайне низкие и крайне высокие оценки встречаются значительно реже. Это даёт представление об общей структуре пользовательских оценок.
График 5 и 6




Скрипичная диаграмма позволяет сравнить не только средние рейтинги жанров, но и характер распределения оценок. Некоторые жанры демонстрируют более узкий и стабильный диапазон рейтингов, в то время как другие отличаются большим разбросом и наличием выбросов. Это подчёркивает различия в восприятии жанров аудиторией.
В то время как круговая диаграмма позволяет увидеть, какие жанры или форматы количественно доминируют, а какие представлены в меньшей степени. Она используется не для анализа зависимостей, а для демонстрации состава и баланса данных, что важно учитывать при интерпретации остальных графиков.
График 7:
Облако слов даёт быстрый интуитивный обзор тематического наполнения датасета. Сразу становятся заметны доминирующие жанры, которые формируют основную часть контента, а также менее распространённые направления. Этот график используется как инструмент первичного исследования данных.
Использование генеративной модели
Вывод
В рамках проекта был проведён анализ пользовательских рейтингов аниме с использованием программных методов обработки данных и объясняющей визуализации. Разные типы графиков позволили рассмотреть данные с нескольких уровней: от общей структуры датасета до сравнительного анализа жанров и форматов.
Исследование показало, что пользовательский рейтинг формируется под влиянием множества факторов и не сводится к популярности или формату произведения. Жанры отличаются не только средними оценками, но и характером распределения рейтингов, что подчёркивает сложность пользовательского восприятия контента.
Проект демонстрирует, как данные могут использоваться не только для получения числовых выводов, но и как материал для визуального исследования и аналитического повествования.