
Как понять, что ваш любимый тайтл — не просто хайп, а шедевр?
Описание проекта
Аниме — это не просто «мультики». Это целая культура, объединяющая и вдохновляющая миллионы людей по всему миру. От эпичных сражений в «Наруто» до глубоких философских размышлений в «Евангелионе» аниме затрагивает самые раличные жанры и рефлексирует на темы, близкие многим. Но как понять, что делает аниме по-настоящему великим? Рейтинги? Популярность? Или что-то большее?
Для меня аниме всегда занимало важное место в жизни, однако после поступления в университет я совсем перестала им увлекаться. Какие тайтлы теперь смотреть? Стоит ли сразу включать топ-1 аниме или искать более низкий по рейтингу, но проверенный временем вариант, чтобы снова погрузиться в этот мир? Постараюсь найти ответы на все заданные вопросы выше.

Для анализа и визуализации данных я нашла дата-сет Top 10,000 Anime (Popularity Index of 2024) с сайта Kaggle.
Для визуализации данных были выбраны следующие типы диаграмм: — гистограмма; — круговая диаграмма; — точечная диаграмма; — линейная диаграмма.
Подобные типы графиков я выбрала для более наглядной и понятной визуализации различий между данными.
Подготовка

Помимо визуализации графиков проекту необходимы изображения. Я приняла решение сгенерировать их в Recraft, используя пресет Translucent Gossamer.
Подобная стилистика была выбрана по следующим трём аспектам: — чиби-стилистика тесно связана с аниме культурой и вызывает теплые чувства при просмотре; — сгенерированные персонажи выглядят, как коллекционные фигурки, что так же вызывает отклик у фанатов культуры; — сочетание полупрозрачности и ярких неоновых цветов добавляют футуристичности и перекликаются с темой технологичности анализа данных, яркие цвета так же ассоциируются у меня с весельем, которое возникает при просмотре аниме.
Сгенерированные иконки и изображения для разбивки так же определили принцип цветовой стилизации графиков.
Первым делом я импортировала все необходимые мне библиотеки: pandas, matplotlib и seaborn.
После загрузила сам дата-сет в формате csv файла.
Следующий шаг — импортирование кастомного шрифта. В интернете я нашла тот, который ассоциируется с мангой и аниме культурой.
Финальным шагом я задаю всем графикам единый стиль.
Здесь также устанавливается палитра из HEX-кодов цветов, которые я получила, загрузив на сайт Adobe Color сгенерированные ранее изображения.
График № 1 — Топ-30 аниме по рейтингу
Гистограмма: Распределение рейтингов аниме
Интересно, что больше всего аниме с рейтингом 6.5, с оценками выше 8 встречается реже.
Это может говорить о том, что зрители строго оценивают аниме, и только действительно выдающиеся работы получают высокие оценки.
Далее я решила создать график, который составит топ-30 аниме по рейтингу. Из него можно увидеть, что классические тайтлы по типу «Fullmetal Alchemist: Brotherhood» («Стальной Алхимик: Братство»), «Steins; Gate» («Врата Штейна»), «Hunter x Hunter (2011)» («Хантер х Хантер») все ещё нравятся современным зрителям.
Гистограмма: Топ-30 аниме по рейтингу
График № 2 — Зависимость рейтинга от количества зрителей
График зависимости рейтинга от количества зрителей показывает, что аниме с высоким рейтингом обычно имеют больше зрителей, но есть и исключения.
Высокий рейтинг часто коррелирует с большим количеством зрителей, но есть нишевые аниме с высоким рейтингом, но меньшей аудиторией. Это может указывать на то, что качество контента важнее массовой популярности.
Точечная диаграмма: Зависимость рейтинга от количества зрителей
Хочу отметить, что в случае работы с этим графиком, возникали трудности. В дата-сете информация в столбце 'Members' содержала одновременно числовые и текстовые значения. Мне пришлось обратиться к генеративной модели Deepseek, чтобы узнать, возможно ли исключить из всех ячеек этого столбца лишний текст.
Prompt: How can I remove str values from column 'Members'?
Задача первых двух строк кода — найти в столбце 'Members' все значения типа str и очистить их.
График № 3 — Взаимосвязь типа и рейтинга
Получив информацию о зависимости рейтинга от популярности, мне стало интересно проанализировать, влияет ли тип аниме на его популярность. Сначала узнаем процентное соотношение типов аниме из дата-сета.
Круговая диаграмма: Распределение аниме по типу
Могу предположить, что TV-сериалы являются наиболее популярным форматом аниме из-за их доступности и продолжительности, позволяющей глубже раскрыть сюжет и персонажей.
Гистограмма: Средняя оценка по типу аниме
Чтобы на графике выводились средние значения рейтинга над каждым столбцом, а не одним, в коде прописан цикл for.
По статистике среднего рейтинга можно сказать, что различные типы аниме получают схожие оценки. Это может указывать на то, что качество контента не сильно зависит от формата.
Гистограмма: Распределение по типу среди топ-30 аниме
TV — это сериал, состоящий из множества эпизодов, который транслируется по телевидению или через стриминговые платформы. Именно такой формат наиболее удобен и доступен людям, поэтому неудивительно, что большая часть аниме из топ-30 — это TV.
График № 4 — Топ-30 по годам популярности
Самый сложный и самый интересный тип диаграммы.
Напоследок я решила проанализировать, в какие года были популярны аниме из топа-30, и была удивлена, увидев что в список входят тайтлы, пик популярности которых приходился на 80-90-тые годы.
Линейная диаграмма: Топ-30 аниме по годам по популярности
На диаграмме видно, что как классические аниме, например, «Ginga Eiyuu Densetsu» («Легенда о героях Галактики»), так и современные, например, «Kimi no Na wa.» («Твоё имя») и «Shingeki no Kyojin» («Атака Титанов») остаются популярными. Это говорит о том, что аниме как жанр имеет долгосрочную привлекательность.
Кроме того, некоторым аниме, таким как «Gintama» («Гинтама») и «Shingeki no Kyojin» («Атака Титанов»), удается сохранять популярность на протяжении сезонов, что говорит о культовости этих франшиз и их способности оставаться в сердцах аудитории годами.
Однако заметно, как со временем большинство тайтлов, вышедших примерно после 2012 года, стали держать популярность всего лишь год. Скорее всего, это произошло из-за повышения производства аниме в целом — как только выходит новый тайтл, люди переключаются на него.
Мне снова пришлось обращаться к Deepseek, чтобы узнать, как разделить значения из столбца 'Popularity' на два: год начала и год конца популярности. Также для корректного отображения информации на диаграмме, мне было необходимо, чтобы эти значения были в формате даты.
Prompt: — I have a column 'Popularity' in a DataFrame that contains rows in the format «Sep 2023 — Mar 2024». How do I split this column into two new columns: 'Popularity_Start' and 'Popularity_And'?; — I have two columns: 'Popularity_Start' and 'Popularity_End', which contain rows in the format «Sep 2023». How do I convert these strings to date format so that they can be used to build a chart?
Заключение
Исследование дата-сета по аниме показало, что высокие рейтинги и популярность часто идут рука об руку, однако они не единственные критерии оценки качества.
Подытожу: При выборе нового аниме для просмотра можно опираться на оценку зрителей, потому что далеко не так много тайлтов получили оценку выше 8. Однако есть много примеров с «низкой» оценкой, но большой фанбазой. Например, «Токийский Гуль», широко известное аниме, но с оценкой 6.7. Нужно обращать внимание и на это.
Кроме того, существуют аниме, такие как «Легенда о героях Галактики» (1988) или «Стальной Алхимик» (2009), которые остаются культовыми даже спустя десятилетия, что говорит об их вневременной ценности и независимости от годов популярности.
Возвращение в мир аниме после перерыва — это как встреча со старым другом: вы можете обнаружить, что многое изменилось, но суть осталась прежней. Думаю, мне стоит пересмотреть «Атаку Титанов» (как только кончится сессия).
Описание применения генеративной модели

Recraft AI — генерация обложки и изображений.
Deepseek — обращения с целью поиска решения для трудных мне задач (разделение и преобразование данных в другой формат, удаление части информации из ячеек дата-сета).
Adobe Color — генерация цветовой палитры на основе загруженного изображения.