
Введение

Скриншот из мультсериала. Сезон 1, эпизод 1.
MLP: FiM является одним из моих самых любимых мультсериалов, и, в поисках датасетов, на основе которых можно было бы провести анализ, я нашла датасет на платформе Kaggle, содержащий транскрипт всех эпизодов мультсериала на английском языке.
Мне стало интересно узнать, какая пони — самая болтливая, о чём пони чаще всего беседуют, и т. д.
В своём проекте я использовала гистограммы для сравнения количества фраз главных героев и второстепенных персонажей мультсериала, а также сгенерировала WordCloud по транскрипту, чтобы посмотреть, какие слова чаще всего произносятся персонажами.
Оформление проекта

Скриншот из мультсериала. Сезон 1, эпизод 14.
Шрифтовое и цветовое решение проекта.
Для оформления всех подписей и текста графиков использовался шрифт Equestria — шрифт, разработанный специально для MLP: FiM. Основная палитра цветов, использованная для графиков — это цвета грив и шерсти главных героинь сериала (и Спайка!)
Какая пони говорит больше всех?
Скриншот из мультсериала. Сезон 2, эпизод 9.
Для первых нескольких графиков велась работа с файлов «clean_dialog.csv», содержащий транскрипт всех предложений 195 эпизодов мультсериала, а также фильма и анимированного спешла по My Little Pony.
CSV таблица «clean_dialog.csv».
По таблице видно, в каком формате были представлены данные: сначала идёт название эпизода («title»), потом — сценарист конкретного эпизода («writer»), далее — имя персонажа («pony»), и в конце — фраза этого персонажа («dialog»).
Главные персонажи
Скриншот из мультсериала. Сезон 9, эпизод 26.
Скриншот кода из рабочего блокнота.
Для начала датасет считывается, после чего значения третьего столбца — «pony» — сортируются по количеству повторений, чтобы посчитать частоту имени каждой пони. Таким образом, подсчитывается количество предложений за все эпизоды сериала, поизношенные этим конкретным персонажем.
Код для генерации гистограммы.
Сверху представлен код, при помощи которого была сгенерирована следующая гистограмма. За основу берутся данные из отсортированного списка «pony_mostmentioned», а цикл проходит по всем цветам в заданной палитре. Для первой таблицы используется срез по первым 7 персонажам: так, мы посмотрим, кто из конкретно главных героев произнёс больше всего фраз за весь сериал.
Проведём небольшой анализ гистограммы: по ней можно понять, что самая болтливая пони — Твайлайт Спаркл, главная героиня сериала. Удивительно, что за ней следует Рэйнбоу Дэш, а не Пинки Пай: скорее всего, это связано с тем, что список отсортирован по количеству предложений, а не отдельных слов.
За ними следуют Эпплджек и Рэрити. Что самое интересное: Спайк, хотя и не входит в «Mane Six», суммарно имеет больше фраз, чем Флаттершай.
Второстепенные персонажи
Скриншот из мультсериала. Сезон 5, эпизод 9.
Теперь интересно было бы узнать, какие из второстепенных персонажей имеют больше всего фраз. Из существующего series создаётся новый — «bgpony_mostmentioned», в котором хранятся имена всех персонажей, не входящих в главную шестёрку.
Скриншот кода. Убираются главные персонажи из общего списка.
В объект «bgpony_mostmentioned» добавляются все строки, кроме первых 7(шестёрка и Спайк). Кроме того, я решила удалить строку «Other» — она отведена под персонажей, у которых нет имён даже в титрах, поэтому я считаю, что эта информация не очень актуальна и никак нам не поможет.
Итак, мы имеем график с Топ-10 второстепенными персонажами по количеству фраз. Оказалось, что Эппл Блум является самой разговорчивой сестрой одной из трёх главных героинь. Интересно, что Старлайт Глиммер, представленная только в 5 сезоне мультсериала, по количеству фраз обошла большинство других персонажей, некоторые их которых были представлены ещё в 1 сезоне мультсериала.
Пожалуй, самым интересным в этом графике является количество фраз Большого Макинтоша, учитывая, что 90% всех его фраз — это простое «Yep». Тем не менее, из-за некорректно отсортированных входных данных (по фразам, а не отдельным словам), он входит в топ самых разговорчивых персонажей.
Скриншот из мультсериала. Сезон 6, эпизод 23.
Самые частопроизносимые слова
Скриншот кода из рабочего блокнота.
О чём чаще всего говорят пони? Чтобы узнать это, я сохранила все предложения в отдельный список, который потом разделила на слова и отделила специальные символы. Далее, список самых частых слов сортируется, и делается срез: убираются частые слова, по типу «I», «my», «you» и так далее, которые не позволили бы нам узнать ничего интересного.
Скриншот кода из рабочего блокнота.
Сверху приведён код, при помощи которого было сгенерировано облако слов. Для данного графика я использовала готовую палитру MatPlotLib — colormap «RdPu».
WordCloud по самым частопроизносимым словам.
Несмотря на срез списка, осталось много разных слов, не имеющих особой смысловой нагрузки. Тем не менее, можно увидеть, что чаще всего упоминается имя главной героини сериала — Твайлайт. Следом за ней чаще всего упоминаются Пинки и Рэрити. Другие примечательные слова — пони, принцесса, друзья и дружба.
Скриншот из мультсериала. Сезон 9, эпизод 17.
Сценаристы: кто написал больше всего эпизодов?
Скриншот из мультсериала. Сезон 7, эпизод 24.
Скриншот кода из рабочего блокнота.
Из общего датасета по списку всех эпизодов убираются дубликаты строк. После этого получившийся датасет сортируется по количеству упоминаний отдельного сценариста.
График-гистограмма: топ сценаристов по количеству написанных эпизодов.
По гистограмме можно увидеть, что больше всего сценариев индивидуально написали Эми Роджерс, Меган МакКарти и М. А. Ларсон — у каждого сценариста по 15 эпизодов. Кроме того, можно отметить, что часто над одним эпизодом работали сразу несколько сценаристов.
Описание применения генеративной модели
Скриншот из мультсериала. Сезон 7, эпизод 14.
https://openai.com/ — работа с кодом, обработка ошибок внутри кода https://color.adobe.com/ — генерация палитры
Рабочая папка проекта
Ссылка на Яндекс.Диск: https://disk.yandex.ru/d/TW8WOgM2OlDjQw