Original size 1140x1600

Анализ эпизодов мультсериала «My Little Pony: Friendship Is Magic»

PROTECT STATUS: not protected
12

Введение

big
Original size 1280x720

Скриншот из мультсериала. Сезон 1, эпизод 1.

MLP: FiM является одним из моих самых любимых мультсериалов, и, в поисках датасетов, на основе которых можно было бы провести анализ, я нашла датасет на платформе Kaggle, содержащий транскрипт всех эпизодов мультсериала на английском языке.

Мне стало интересно узнать, какая пони — самая болтливая, о чём пони чаще всего беседуют, и т. д.

В своём проекте я использовала гистограммы для сравнения количества фраз главных героев и второстепенных персонажей мультсериала, а также сгенерировала WordCloud по транскрипту, чтобы посмотреть, какие слова чаще всего произносятся персонажами.

Оформление проекта

big
Original size 1280x720

Скриншот из мультсериала. Сезон 1, эпизод 14.

Original size 2076x683

Шрифтовое и цветовое решение проекта.

Для оформления всех подписей и текста графиков использовался шрифт Equestria — шрифт, разработанный специально для MLP: FiM. Основная палитра цветов, использованная для графиков — это цвета грив и шерсти главных героинь сериала (и Спайка!)

Какая пони говорит больше всех?

Original size 1280x720

Скриншот из мультсериала. Сезон 2, эпизод 9.

Для первых нескольких графиков велась работа с файлов «clean_dialog.csv», содержащий транскрипт всех предложений 195 эпизодов мультсериала, а также фильма и анимированного спешла по My Little Pony.

Original size 2076x497

CSV таблица «clean_dialog.csv».

По таблице видно, в каком формате были представлены данные: сначала идёт название эпизода («title»), потом — сценарист конкретного эпизода («writer»), далее — имя персонажа («pony»), и в конце — фраза этого персонажа («dialog»).

Главные персонажи

Original size 1280x720

Скриншот из мультсериала. Сезон 9, эпизод 26.

Original size 2076x477

Скриншот кода из рабочего блокнота.

Для начала датасет считывается, после чего значения третьего столбца — «pony» — сортируются по количеству повторений, чтобы посчитать частоту имени каждой пони. Таким образом, подсчитывается количество предложений за все эпизоды сериала, поизношенные этим конкретным персонажем.

Original size 2076x720

Код для генерации гистограммы.

Сверху представлен код, при помощи которого была сгенерирована следующая гистограмма. За основу берутся данные из отсортированного списка «pony_mostmentioned», а цикл проходит по всем цветам в заданной палитре. Для первой таблицы используется срез по первым 7 персонажам: так, мы посмотрим, кто из конкретно главных героев произнёс больше всего фраз за весь сериал.

Original size 1669x915

Проведём небольшой анализ гистограммы: по ней можно понять, что самая болтливая пони — Твайлайт Спаркл, главная героиня сериала. Удивительно, что за ней следует Рэйнбоу Дэш, а не Пинки Пай: скорее всего, это связано с тем, что список отсортирован по количеству предложений, а не отдельных слов.

За ними следуют Эпплджек и Рэрити. Что самое интересное: Спайк, хотя и не входит в «Mane Six», суммарно имеет больше фраз, чем Флаттершай.

Второстепенные персонажи

Original size 1920x1080

Скриншот из мультсериала. Сезон 5, эпизод 9.

Теперь интересно было бы узнать, какие из второстепенных персонажей имеют больше всего фраз. Из существующего series создаётся новый — «bgpony_mostmentioned», в котором хранятся имена всех персонажей, не входящих в главную шестёрку.

Original size 2076x408

Скриншот кода. Убираются главные персонажи из общего списка.

В объект «bgpony_mostmentioned» добавляются все строки, кроме первых 7(шестёрка и Спайк). Кроме того, я решила удалить строку «Other» — она отведена под персонажей, у которых нет имён даже в титрах, поэтому я считаю, что эта информация не очень актуальна и никак нам не поможет.

Original size 1664x995

Итак, мы имеем график с Топ-10 второстепенными персонажами по количеству фраз. Оказалось, что Эппл Блум является самой разговорчивой сестрой одной из трёх главных героинь. Интересно, что Старлайт Глиммер, представленная только в 5 сезоне мультсериала, по количеству фраз обошла большинство других персонажей, некоторые их которых были представлены ещё в 1 сезоне мультсериала.

Пожалуй, самым интересным в этом графике является количество фраз Большого Макинтоша, учитывая, что 90% всех его фраз — это простое «Yep». Тем не менее, из-за некорректно отсортированных входных данных (по фразам, а не отдельным словам), он входит в топ самых разговорчивых персонажей.

Original size 1280x720

Скриншот из мультсериала. Сезон 6, эпизод 23.

Самые частопроизносимые слова

0

Скриншот кода из рабочего блокнота.

О чём чаще всего говорят пони? Чтобы узнать это, я сохранила все предложения в отдельный список, который потом разделила на слова и отделила специальные символы. Далее, список самых частых слов сортируется, и делается срез: убираются частые слова, по типу «I», «my», «you» и так далее, которые не позволили бы нам узнать ничего интересного.

Original size 2076x385

Скриншот кода из рабочего блокнота.

Сверху приведён код, при помощи которого было сгенерировано облако слов. Для данного графика я использовала готовую палитру MatPlotLib — colormap «RdPu».

Original size 982x790

WordCloud по самым частопроизносимым словам.

Несмотря на срез списка, осталось много разных слов, не имеющих особой смысловой нагрузки. Тем не менее, можно увидеть, что чаще всего упоминается имя главной героини сериала — Твайлайт. Следом за ней чаще всего упоминаются Пинки и Рэрити. Другие примечательные слова — пони, принцесса, друзья и дружба.

Original size 1280x720

Скриншот из мультсериала. Сезон 9, эпизод 17.

Сценаристы: кто написал больше всего эпизодов?

Original size 1920x1080

Скриншот из мультсериала. Сезон 7, эпизод 24.

0

Скриншот кода из рабочего блокнота.

Из общего датасета по списку всех эпизодов убираются дубликаты строк. После этого получившийся датасет сортируется по количеству упоминаний отдельного сценариста.

Original size 1638x963

График-гистограмма: топ сценаристов по количеству написанных эпизодов.

По гистограмме можно увидеть, что больше всего сценариев индивидуально написали Эми Роджерс, Меган МакКарти и М. А. Ларсон — у каждого сценариста по 15 эпизодов. Кроме того, можно отметить, что часто над одним эпизодом работали сразу несколько сценаристов.

Описание применения генеративной модели

Original size 1280x720

Скриншот из мультсериала. Сезон 7, эпизод 14.

https://openai.com/ — работа с кодом, обработка ошибок внутри кода https://color.adobe.com/ — генерация палитры

Рабочая папка проекта

Ссылка на Яндекс.Диск: https://disk.yandex.ru/d/TW8WOgM2OlDjQw

Анализ эпизодов мультсериала «My Little Pony: Friendship Is Magic»
12
We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more