
Вводная часть
Какие данные я выбрала для анализа: Набор данных «IMDB Movies Dataset», который содержит информацию о 1000 фильмах из топ-рейтинга IMDb. Данные включают такие колонки, как «название фильма», «год выпуска», «жанр», «рейтинг IMDb», «кассовые сборы», «режиссер», «актеры» и другие. Данные были найдены на платформе Kaggle
Эти данные представляют собой топ-1000 фильмов по версии IMDb, что делает их репрезентативными для анализа популярности и успеха фильмов. Мне было интересно исследовать, какие факторы (жанр, режиссер, год выпуска) влияют на успех фильма, а также выявить тренды в киноиндустрии, так сама я обучаюсь на режиссера, эта информация будет полезна для моей будущей карьеры. Данные имеют большую ценность для: — Понимания, какие жанры и режиссеры наиболее популярны. — Анализа связи между рейтингом IMDb и кассовыми сборами. — Исследования исторических трендов в кино.
Типы графиков, которые я решила использовать: 1. Гистограмма: Для анализа распределения рейтингов IMDb. 2. Точечный график (scatter plot): Для исследования связи между рейтингом IMDb и кассовыми сборами. 3. Столбчатая диаграмма: Для визуализации топ-10 режиссеров по количеству фильмов. 4. Круговая диаграмма: Для анализа распределения фильмов по возрастным рейтингам. 5. Горизонтальная столбчатая диаграмма: Для сравнения средних кассовых сборов по жанрам.
Я думаю, что эти графики позволяют наглядно представить распределение данных, выявить тренды и зависимости, а также сравнить категории (например, жанры или режиссеров).
Этапы работы
1. Загрузка данных; 2. Очистка данных; 3. Анализ данных; 4. Визуализация.
Стилизация графиков
- Графики были стилизованы в минималистичном стиле с использованием библиотеки Seaborn и цветовой палитры viridis. - Использована сетка (whitegrid) для улучшения читаемости. - Добавлены аннотации для удобства восприятия.
Распределение рейтингов IMDb: График показывает распределение рейтингов IMDb, то можно заметить, что большинство фильмов имеют рейтинг в диапазоне от 7.5 до 8.5. Это типично для IMDb, где фильмы с рейтингом выше 8.5 считаются исключительными, а ниже 7.5 — средними или ниже среднего. Фильмы с рейтингом выше 9.0 (например, «The Shawshank Redemption» с рейтингом 9.3) являются редкими и считаются классикой.
Основные выводы: Лидеры списка: Альфред Хичкок занимает первое место с наибольшим количеством фильмов в топ-1000 IMDb. Это подтверждает его статус одного из самых и влиятельных режиссеров в истории кино. Стивен Спилберг и Хаяо Миядзаки также входят в тройку лидеров, что подчеркивает их вклад как в голливудское, так и в анимационное кино.
Распределение: Количество фильмов у лидеров (Хичкок, Спилберг, Миядзаки) значительно выше, чем у остальных режиссеров в топ-10. Это указывает на их исключительную продуктивность и популярность. Режиссеры в середине списка (например, Акира Куросава, Мартин Скорсезе) имеют примерно одинаковое количество фильмов, что говорит о их стабильном успехе.
Замыкающие список: Кристофер Нолан и Клинт Иствуд находятся в конце списка, но их присутствие в топ-10 подтверждает их значимость в современном кино.
Основные выводы: Общий тренд: График показывает слабую положительную корреляцию между рейтингом IMDb и кассовыми сборами. Это означает, что фильмы с более высоким рейтингом IMDb в среднем имеют более высокие кассовые сборы. Однако корреляция не является сильной, что указывает на то, что рейтинг IMDb — не единственный фактор, влияющий на коммерческий успех.
Распределение точек: Фильмы с высоким рейтингом (8.5+): Некоторые из них имеют высокие сборы, но есть и фильмы с относительно низкими сборами. Это может быть связано с нишевыми или артхаусными фильмами, которые получили высокие оценки критиков, но не стали блокбастерами. Фильмы с низким рейтингом (6.0–7.0): Некоторые из них демонстрируют высокие кассовые сборы. Это может быть связано с популярными блокбастерами, которые получили смешанные оценки зрителей, но привлекли большую аудиторию благодаря маркетингу, спецэффектам или франшизе.
Выбросы: На графике видны выбросы — фильмы, которые либо получили высокий рейтинг при низких сборах, либо наоборот. Это подчеркивает, что успех фильма зависит не только от качества (рейтинга), но и от других факторов, таких как жанр, маркетинг, актерский состав и т. д.
Основные выводы: Доминирующие рейтинги: U (25.5%) и A (22.9%) занимают наибольшую долю в распределении. Это указывает на то, что значительная часть фильмов в топе IMDb рассчитана на широкую аудиторию (U) или взрослых (A). PG-13 (20.8%) также занимает значительную долю, что подчеркивает популярность фильмов для подростков и взрослых. Рейтинги средней популярности: Passed (17.2%) и PG (5.0%) занимают меньшую долю, но все же заметны. Это может быть связано с историческими фильмами (Passed) или фильмами для семейного просмотра (PG). Редкие рейтинги: Рейтинги UAMrigdved (5.1%) и другие (5.0%) занимают наименьшую долю. Это может быть связано с нишевыми категориями или фильмами, которые не подходят под основные рейтинги.
Основные выводы
Самые прибыльные жанры: — Action и Adventure занимают лидирующие позиции по средним кассовым сборам. Это связано с их популярностью среди широкой аудитории, высокими бюджетами и зрелищностью, что привлекает большое количество зрителей в кинотеатры. — Sci-Fi и Fantasy также показывают высокие средние сборы, что может быть связано с успехом крупных франшиз, таких как «Звездные войны» или «Марвел».
Жанры средней прибыльности: — Drama и Comedy имеют средние показатели сборов. Эти жанры часто привлекают стабильную аудиторию, но их бюджеты обычно ниже, чем у блокбастеров. — Animation также показывает хорошие результаты, что может быть связано с популярностью анимационных фильмов среди семейной аудитории.
Менее прибыльные жанры: — Horror, Thriller и Mystery имеют относительно низкие средние сборы. Это может быть связано с их нишевой аудиторией и меньшими бюджетами. — Documentary и Musical находятся в конце списка, что отражает их. ограниченную аудиторию и меньшую коммерческую привлекательность.