Анализ рейтинга аниме on Deziiign
Original size 1144x1640

Анализ рейтинга аниме

PROTECT STATUS: not protected
The project is taking part in the competition

Рубрикатор

• Ведение • Обработка и подготовка данных • Выбор типов визуализаций • Изучающий и объясняющий формат визуализации • Статистические методы, использованные в проекте • Стилизация • Вывод • Использование генеративной модели

Введение

Почему именно эти данные показались интересными

Этот датасет выбран потому, что он отражает массовое мнение пользователей о контенте, а не оценки экспертов. Меня заинтересовал вопрос: насколько жанровые особенности и формат произведения соотносятся с пользовательским рейтингом, и можно ли увидеть паттерны в этих данных. Кроме того, тема аниме хорошо подходит для визуального анализа: жанры, типы и рейтинги легко интерпретируются визуально и дают простор для объясняющих графиков.

Для анализа был выбран открытый датасет, посвящённый аниме, состоящий из двух таблиц:

• основной таблицы с метаданными тайтлов (тип, жанры, количество эпизодов, популярность и др.), • таблицы с пользовательскими рейтингами.

Данные представлены в формате CSV и подходят для программной обработки, так как содержат как числовые, так и категориальные признаки, а также достаточно большой объём наблюдений, чтобы выявлять устойчивые закономерности, а не случайные колебания.

Обработка и подготовка данных

Анализ данных выполнялся в среде Google Colab с использованием Python и библиотеки Pandas.

Работа с данными шла в три этапа:

• сбор и очистка: объединила таблицы и избавился от «мусора» (пустых строк и ошибок в форматах), • обработка категорий: раскрыла сложные списки жанров. Это позволило корректно подсчитать частоту каждого жанра, даже если они шли вперемешку, • обогащение данных: создала удобные категории рейтингов и объединила данные. Это гарантирует точность итоговых графиков, а не статистические ошибки.

Original size 1188x1565

Выбор типов визуализаций

Какие графики были выбраны и почему

Для анализа были использованы разные типы графиков, каждый из которых решает свою аналитическую задачу:

• точечная диаграмма — отражает взаимосвязь между пользовательским рейтингом аниме и его популярностью (количеством пользователей или участников), • столбчатая диаграмма — используется для сравнения средних пользовательских рейтингов между различными типами аниме, • линейный график — иллюстрирует изменение среднего пользовательского рейтинга в зависимости от количества эпизодов, • гистограмма — отображает распределение пользовательских рейтингов по всему датасету, • скрипичная диаграмма — отображает распределение пользовательских рейтингов по жанрам, включая плотность значений, медиану и разброс, • круговая диаграмма — отражает структуру датасета по жанрам или типам аниме в рамках выбранного поднабора данных, • облако слов — визуализирует частоту появления жанров в датасете: размер каждого слова пропорционален количеству упоминаний;

Такой набор позволяет рассмотреть данные с разных сторон: от общей структуры датасета до более глубокого сравнительного анализа.

Изучающий и объясняющий формат визуализации

Каждая визуализация строилась не как иллюстрация «того, что есть», а как инструмент объяснения:

• графики показывают не только средние значения, но и разброс, плотность и выбросы, • используются диапазоны рейтингов, чтобы избежать упрощения сложных распределений, • жанры анализируются как мультикатегориальные признаки, а не как единичные метки;

Этот метод помогает формировать обоснованные заключения, а не ограничиваться лишь поверхностными наблюдениями.

Статистические методы, использованные в проекте

• Слияние и очистка данных: все данные объединены в таблицу с характеристиками аниме и базу пользовательских оценок и некорректные значения. • Преобразование типов: все числовые показатели были приведены к форматам, пригодным для вычислений. • Нормализация категорий: так как у многих тайтлов указано сразу несколько жанров в одной строке, они были разделены их на отдельные записи. Это позволило честно посчитать популярность каждого жанра в отдельности. • Группировка и агрегация: сгруппированы данные по типам контента и жанрам, чтобы рассчитать средние показатели рейтинга и популярности для каждой категории. • Сегментация: выделен отдельный пласт «высокорейтингового аниме» (8+), чтобы детально изучить структуру жанров именно у топовых проектов. • Частотный анализ: были подсчитаны упоминания жанров и тегов, что легло в основу визуализации их востребованности.

Стилизация

Все визуализации были стилизованы не стандартными настройками Python, а через код:

• изменена цветовая палитра, • задан единый фон и сетка, • настроены подписи осей и заголовки, • соблюдён единый визуальный ритм между графиками.

Цель стилизации — сделать графики частью единого визуального повествования, а не разрозненными техническими иллюстрациями.

Original size 1024x248

Эти цвета были выбраны потому, что они позволяют совместить аналитическую строгость и визуальную выразительность. Светлый бежевый фон создаёт нейтральную основу для восприятия данных, синий и циановый подчёркивают структурность и цифровую природу анализа, а фиолетовые, жёлтые и розовые акценты добавляют ассоциации с аниме-культурой и эмоциональной стороной пользовательских оценок, не перегружая визуальное восприятие.

График 1

Original size 1272x678
Original size 849x556

График позволяет оценить, существует ли корреляция между популярностью и качеством восприятия контента. Видно, что высокая популярность не всегда гарантирует высокий рейтинг: встречаются как популярные, но средне оценённые тайтлы, так и менее массовые, но высоко оценённые произведения. Это подчёркивает, что пользовательский рейтинг формируется не только за счёт охвата аудитории.

График 2

Original size 1680x730
Original size 838x593

График наглядно демонстрирует различия между форматами. Некоторые типы аниме стабильно получают более высокие оценки, что может быть связано с особенностями производства, целевой аудиторией или длительностью формата. Диаграмма позволяет быстро сравнить категории и выявить лидеров и аутсайдеров.

График 3

Original size 1088x934
Original size 838x556

Можно проследить общую тенденцию и заметить, что увеличение количества эпизодов не приводит к линейному росту рейтинга. В некоторых диапазонах рейтинг стабилизируется или даже снижается, что может указывать на эффект «перегруженности» или снижение качества в слишком длинных проектах.

График 4

Original size 1032x628
Original size 854x556

График позволяет понять, какие значения рейтинга встречаются чаще всего, и оценить форму распределения. Видно, что большинство тайтлов концентрируется в среднем рейтинговом диапазоне, а крайне низкие и крайне высокие оценки встречаются значительно реже. Это даёт представление об общей структуре пользовательских оценок.

График 5 и 6

Скрипичная диаграмма позволяет сравнить не только средние рейтинги жанров, но и характер распределения оценок. Некоторые жанры демонстрируют более узкий и стабильный диапазон рейтингов, в то время как другие отличаются большим разбросом и наличием выбросов. Это подчёркивает различия в восприятии жанров аудиторией.

В то время как круговая диаграмма позволяет увидеть, какие жанры или форматы количественно доминируют, а какие представлены в меньшей степени. Она используется не для анализа зависимостей, а для демонстрации состава и баланса данных, что важно учитывать при интерпретации остальных графиков.

График 7:

Original size 1236x832
Original size 1097x559

Облако слов даёт быстрый интуитивный обзор тематического наполнения датасета. Сразу становятся заметны доминирующие жанры, которые формируют основную часть контента, а также менее распространённые направления. Этот график используется как инструмент первичного исследования данных.

Использование генеративной модели

В процессе работы использовались нейросети: ChatGPT — для проверки корректности логики обработки данных. Sora: генерация обложки и создание цветовой палитры. Kaggel: поиск датасета.

Вывод

В рамках проекта был проведён анализ пользовательских рейтингов аниме с использованием программных методов обработки данных и объясняющей визуализации. Разные типы графиков позволили рассмотреть данные с нескольких уровней: от общей структуры датасета до сравнительного анализа жанров и форматов.

Исследование показало, что пользовательский рейтинг формируется под влиянием множества факторов и не сводится к популярности или формату произведения. Жанры отличаются не только средними оценками, но и характером распределения рейтингов, что подчёркивает сложность пользовательского восприятия контента.

Проект демонстрирует, как данные могут использоваться не только для получения числовых выводов, но и как материал для визуального исследования и аналитического повествования.

Анализ рейтинга аниме
Confirm your ageProject contains information not suitable for individuals under the age of 18
I am already 18 years old