Original size 1133x1600

Анализ данных по фильмам

PROTECT STATUS: not protected

Введение

В поисках подходящего датасета я наткнулась на интересные данные о фильмах и их рейтингах. На сайте kaggle.com я решила взять их на анализ, чтобы сделать их более понятными для личного изучения.

В данном проекте я использовала следующие типы диаграмм: столбчатая, круговая, точечная, линейная, графическая.

Оформление

Original size 1200x605

Логотип «IMDb»

В качестве визуального решения я решила выбрать стиль оформления инфографики сайта с крупнейшей в мире базой данных о кинематографе — IMDb, а именно цветовую палитру: желтый, черный и белый для стилизации графиков.

0

Цветовая палитра «IMDb»

IMDb Gold

Hex code #F5C518 RGB values (245, 197, 24) CMYK values (4, 21, 98, 0) Pantone® 7406

White

Hex code #FFFFFF RGB values (255, 255, 255) CMYK values (0, 0, 0, 0) Pantone® Pantone White

Black

Hex code #000000 RGB values (0, 0, 0) CMYK values (75, 68, 67, 90) Pantone® Pantone Black

Обработка данных

  1. Загрузка

для начала я считала файл датасета csv

  1. Обработка данных

файл загружается в pandas с помощью pd.read_csv («top_rated_movies.csv»). дата выхода фильма (release_date) преобразуется в формат datetime (pd.to_datetime), используя параметр errors='coerce', чтобы избежать ошибок. из даты выхода извлекается год (data['year'] = data['release_date'].dt.year). Подсчитываются пропущенные значения в датафрейме (data.isnull ().sum ()).

Original size 1265x295
Original size 1263x539

Визуализация данных

1. Распределение количества фильмов по годам

0

Распределение количества фильмов по годам

На основе графика распределения количества фильмов по годам можно сделать несколько выводов:

  1. Рост количества фильмов с течением времени

На графике видно, что в последние десятилетия выпускается больше фильмов, это свидетельствует о развитии киноиндустрии, доступности технологий и увеличении спроса на контент. Спады связаны с войнами, экономическими кризисами или другими глобальными событиями, влияющими на производство фильмов.

К примеру, в последнее время на графике можно отметить спад количества фильмов, что говорит о прямом влиянии пандемии, смене форматов (переход на сериалы, стриминговые платформы).

2. Распределение фильмов по рейтингу

0

Распределение фильмов по рейтингу

На основе круговой диаграммы распределения фильмов по рейтингу можно сделать следующие выводы:

  1. Большинство фильмов имеют средний рейтинг (6.0–7.9)

Это ожидаемо, так как большинство фильмов попадают в диапазон «средних» оценок, отражая сбалансированное распределение оценок зрителей.

  1. Фильмов с высокими рейтингами (8.0+) меньше

Высокие оценки получают только действительно выдающиеся фильмы, которые понравились широкой аудитории.

  1. Рейтинг ниже 6 встречается довольно редко, потому что в среднем фильмы оцениваются на 6-7.9

3. Изменение среднего рейтинга фильмов по годам

0

Изменение среднего рейтинга фильмов по годам

Этот график показывает изменение среднего рейтинга фильмов по годам и позволяет сделать несколько выводов:

  1. Ранние годы кино (до 1920-х):

Видим сильные колебания в начале 1900-х годов. Это связано с небольшим количеством фильмов в те годы. В 1910–1920-х годах заметен резкий спад, что, возможно, связано с экспериментальным периодом в киноиндустрии.

  1. Золотой век Голливуда (1930–1950-е):

В 1930–1950-е годы рейтинг фильмов остается стабильно высоким (около 7,5–7,8). Это период расцвета Голливуда, когда создавались культовые фильмы, которые и сейчас имеют высокий рейтинг.

  1. Спад в 1970–2000-х годах:

Снижение рейтингов с 1960-х годов связано с увеличением количества фильмов и их разнообразием. В 1980–2000-х годах рейтинг падает к 7.0 и ниже, возможно, из-за роста массового кинопроизводства, появления франшиз и коммерческого кино, ориентированного не столько на качество, сколько на кассовые сборы.

  1. Современный рост (2010-е — 2020-е):

В последние годы (с 2010-х) наблюдается рост среднего рейтинга, что связано с развитием потоковых сервисов, улучшением качества контента и увеличением количества нишевого авторского кино.

4. Топ-10 популярных фильмов

0

Топ-10 популярных фильмов

Для создания этого графика была выведена формула с помощью Chat-GPT

0
Original size 555x189

Формула взвешенного рейтинга

5. Зависимость рейтинга от количества голосов

0

Зависимость рейтинга от количества голосов

  1. Популярные фильмы имеют стабильные рейтинги

В области с большим количеством голосов (например, более 10 000) разброс рейтингов значительно уменьшается. Это говорит о том, что чем больше голосов у фильма, тем более объективный и устойчивый его рейтинг.

  1. Фильмы с малым количеством голосов имеют разброс оценок

В зоне до 5000 голосов рейтинг фильмов варьируется от 4 до 9 баллов. Это может указывать на то, что у менее популярных фильмов оценки более субъективны и могут зависеть от узкой аудитории.

  1. Редкие высокорейтинговые фильмы с большим числом голосов

Можно заметить небольшое количество фильмов с высокими рейтингами (8.5+) и большим числом голосов. Такие фильмы, скорее всего, являются культовыми, классикой или имеют широкую поддержку аудитории.

  1. Фильмы со средними рейтингами (6–8) составляют большинство

Большинство точек расположено в этом диапазоне, что говорит о том, что основная масса фильмов получает именно такие оценки. Это подтверждает тенденцию к тому, что большинство картин вызывают смешанные или положительные, но не выдающиеся отклики. Итоговая зависимость между рейтингом и популярностью

Можно сказать, что у фильмов с большим количеством голосов редко встречаются очень низкие оценки (ниже 5), что может свидетельствовать о естественном отборе: плохие фильмы просто не набирают большой зрительской базы.

Заключение

В ходе данного проекта мне удалось преобразовать те типы данных, которые были слишком сложны для изучения, в более легко-читаемые и доступные виды представления информации.

Описание применения генеративной модели

Для своего проекта я использовала Chat-GPT-4-Turbo. Он помог мне в написании частей кодов, придумывании формулы «Взвешенного рейтинга» и вставлении её в код, помог с исправлением ошибок в кодах, которые возникали.

Ссылка на модель: https://chatgpt.com/

Для генерации обложки также была использована нейросеть.

Ссылка на модель: https://www.recraft.ai

Анализ данных по фильмам
Project created at 23.03.2025
We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more