
Описание
На втором курсе меня начало интересовать кино — для изучения я выбирала дисциплины, связанные с историей кино, и старалась много смотреть фильмов во внеучебное время. Поэтому при выборе темы для этого проекта я тоже обратилась к интересующей меня теме, и для анализа выбрала датасет о фильмах, вышедших в 2024 году.
Датасет я нашла на сайте kaggle. Датасет содержит в себе 501 фильм, вышедший в 2024 году и имеющий страницу на сайте IMDb.

Внешний вид графиков и самого проекта вдохновлен сайтов IMDb, в частности сочетанием черного и желтого. Для разнообразия цветовой гаммы я использовала несколько оттенков желтого.
Для визуализации данных я решила выбрать три вида графиков — столбчатые графики (хорошо отображают числовые значения), точечные графики (ярко демонстрируют не только данные в сравнении, но и количество фильмов) и круговые диаграммы (для удобного отображения процентного соотношения жанров).
Обработка данных
Для начала я импортировала необходимые мне библиотеки matplotlib.pyplot и pandas, после чего считала скачанный csv-файл датасета. Также я указала путь к используемому шрифту.

Для удобной работы мне было необходимо отредактировать датасет: привести строки жанра, каста, оригинального языка, продакшн компании к более простому виду.
Так, с помощью кода я привела строки вида " ['Fantasy', 'Horror', 'Mystery'] " к строкам вида " Fantasy, Horror, Mystery "
Это значительно упростило мне работу и облегчило дальнейший код.
Далее мне нужно было привести данные о доходах фильма к одному виду. Я не планировала использовать для анализа данные о бюджете каждого фильма, поэтому приведение чисел к виду миллионов долларов ($M) коснулось только доходов фильма.
Чтобы не запутаться в значениях, я попросила Deepseek написать функцию, которая привела бы значения дохода к одному виду.
промпт нейросети Deepseek: напиши функцию, которая приведет к виду «160» миллионов долларов значения «160», «160K», «160M», «160B»
Приведя датасет к удобному для работы виду, я сохранила изменения в новом файле, с которым в дальнейшем работала.
Дальше я проанализировала популярность разных жанров в круговой диаграмме.
Несмотря на предыдущую редактуру датасета, над списком жанров пришлось постараться вновь. Некоторые фильмы относятся сразу к нескольким жанрам, поэтому необходимо было разделить список жанров, отделенных друг от друга запятой. C этой задачей я обратилась к нейросети Deepseek, которая подсказала мне, как лучше отредактировать эти данные.
промпт нейросети Deepseek: как преобразовать данные в списке через запятую в отдельные данные в строке?
Далее я привела данные о количестве фильмов разных жанров к процентному виду и выделила в отдельную группу все жанры, число которых было меньше 2%.
Визуализация данных
Круговая диаграмма популярности жанров
Помимо подтвердившихся гипотез о популярности драмы, триллеров и комедии, меня удивило положение хорроров. Нельзя сказать, что они непопулярны, но я однозначно ожидала большего количества фильмов в этом жанре.
Точечная диаграмма зависимости рейтинга фильма от выручки
Также было интересно посмотреть, насколько рейтинг фильма отображает успех в прокате. Случилось интересное открытие — фильмы с рейтингом около 9 не принесли огромные богатства своим создателям.
Наибольший успех получили фильмы рейтингом около 6 и 7 — несмотря на то, что невероятных высот в доходе они не достигли, их количество позволяет им занять значительную позицию в доходе.
Самых же больших высот достиг фильм с рейтингом 8, что логично: скорее всего он понравился широкой аудитории.
Облако частотности слов в названиях фильмов
С помощью облака частотности слов удалось выяснить, какие слова чаще всего оказываются в названии фильмов. Большой популярностью пользуются слова «Girl', „Man“, „One“, „Love“, „Night“. Популярность этих слов не стала для меня открытием, а вот крупность слов „Night“ и „Murder“ удивила. Все-таки хорроры занимают большую часть в списке фильмов.
Столбчатый график количества фильмов выпущенными 20 компаниями
Через датасет удалость проанализировать самые большие компании и количество фильмов, которые они выпустили. В качестве выборки я взяла 20 компаний. Из них лидерами по количеству выпущенных фильмов оказались Paramount Pictures, Netflix и A24 с 11 фильмами у каждого.
Удивили Universal Pictures — у них оказалось всего 4 выпущенных фильма за год.
Как и в случае с круговой диаграммой, здесь я применила функцию explode (), чтобы разделить несколько названий компаний через запятую в одном столбце на несколько строк.
Точечный график распределения рейтинга по жанрам фильмов
Самых низких оценок удостоились только фильмы в жанре комедия и хоррор — и, как правило, они действительно самые противоречивые!
В остальном же все жанры удостаиваются примерно одинакового диапазона оценок.
Здесь я применила функцию explode (), чтобы разделить несколько жанров одного фильма, разделенных запятой, на несколько строк.
Описание применения генеративной модели
Deepseek — обращения с целью исправления багов в коде, получения инструкций и вопросы по тому, как правильно преобразовать данные в списке и привести значения дохода к одному виду.
Leonardo AI — генерация изображения для обложки проекта. промпт: create an illustration with vintage camera in black white and yellow colors
Список источников
IMDb 2024 (Movies and TV Shows) / [Электронный ресурс] // Kaggle: [сайт]. — URL: https://www.kaggle.com/datasets/sanadalali/imdb-2024-movies-and-tv-shows (дата обращения: 22.03.2025).