Original size 736x1041

Анализ данных самых популярных фильмов и сериалов

PROTECT STATUS: not protected

Описание проекта

С недавнего времени, меня очень привлекает киноиндустрия, и свой проект я бы хотела посвятить фильмам и сериалам, в особенности их популярности. На сайте Kaggle я нашла подходящий датасет, который содержит нужную мне информацию.

А именно: название, дату, рейтинг, количество эпизодов, жанр. Самое удивительное, что в приведенной таблице есть показатель жестокости и сражений, количество ненормативной лексики и алкоголя, что было тоже полезно и интересно анализировать.

«Кино должно заставить зрителя забыть о том, что он сидит в кино» (Роман Полански)

Для выбор цветовой палитры я вдохновилась обложкой своего любимого сериала.

big
Original size 3840x2160

Стив Мартин и Джон Хоффман «Убийства в одном здании» 31.09.2021 г.

big
Original size 2737x596

В ходе работы я использовала следующие графики: Круговая диаграмма Столбчатая диаграмма Матрица ошибок Линейчатая диаграмма

Обработка данных

В начале процесса осуществляется импорт необходимых библиотек: matplotlib.pyplot для визуализации данных и pandas для работы с табличной информацией.

Далее данные о фильмах и сериалах, хранящиеся в файле imbd.csv, загружаются на локальный компьютер с помощью функции files.upload (), которая доступна в среде Google Colab. После загрузки файл читается в таблицу (DataFrame) с использованием функции pd.read_csv (), что создает удобные условия для анализа данных.

В завершение, выводится информация из таблицы, чтобы проверить правильность загрузки данных.

Original size 2755x865

График 1

Первая столбчатая диаграмма иллюстрирует количество фильмов/сериалов, выпускаемых в определенные даты. Сортировка данных по возрастанию позволяет наглядно определить численность выпусков в разные года.

Для удобства под каждым столбцом указан год, а слева можно наблюдать шкалу с числами, которая указывает на количество фильмов. Смотря на диаграмму, можем сделать вывод о том, что со временем фильмы/сериалы стали все больше появляться на экранах. Особенно после 2020 года, где наблюдается резкий скачок.

Original size 3600x1800
Original size 3078x1626

График 2

Этот график показывает количество выпущенных кинокартин и многосерийных фильмов.

Данный тип диаграммы был выбран, чтобы наглядно посмотреть на различия. Таким образом можно сделать вывод о том, что на настоящий момент количество существующих и выпущенных в свет фильмов в 2 раза превышает количество сериалов

Original size 3000x1800
Original size 3078x1293

График 3

Этот график визуализирует 6 жанров киноиндустрии. Используя данные об известных жанрах, диаграмма иллюстрирует самые популярные из них.

Круговая диаграмма в данном случае смотрится выигрышно по причине того, что в процентах можно увидеть различия и популярность.

Таким образом, можно сделать вывод о том, что в мире кино — комедии встают на первое место по количеству, второе же место досталось драматическим фильмам и сериалам.

Original size 2400x2400
Original size 3078x1519

График 4

Далее мое внимание зацепил не только привычный фактор, по типу: жанра, рейтинга и т. д. Я немного отошла от анализа обычных показателей и решила исследовать фактор ненормативной лексики в фильмах/сериалах.

Данная круговая диаграмма показывает количество браной лексики в мире кино. Удивительно то, что практически половина фильмов и сериалов имеют нецензурную брань. Такие показатели достаточны для вывода о том, что в современном мире ненормативная лесика является почти неотъемлемой частью любого фильма или сериала.

Original size 2400x2400
Original size 3078x1282

График 5

Матрица ошибок в кино — это инструмент анализа, который помогает выявить и понять, как обнаженность и жестокость представлены в фильмах. В рамках матрицы рассматриваются различные уровни, которые указывают на количество сцен, где фигурирует либо жесткость, либо обнаженность.

Таким образом, матрица ошибок позволяет исследовать, количество использования обнаженности и жестокости в разных фильмах и сериалах.

Original size 2400x2400
Original size 3077x1507

Вывод

На основе проведенного анализа самых популярных фильмов и сериалов можно сделать несколько ключевых выводов. Во-первых, наблюдается выраженная тенденция к смешению жанров, что позволяет создавать более многослойные и эмоционально насыщенные сюжеты, способные привлечь широкую аудиторию. Во-вторых, можно наблюдать огромную разницу по количеству сериалов и фильмов, что указывает на то, что в наше время чаще на свет и экраны появляются в основном фильмы. В-третьих, наблюдается значительное количество нецензурной лексики и сцен с обнаженностью и жесткостью, что, конечно, имеет плохое влияние на общество, но делает картину более живой и раскрепощенной и приближает зрителей к реальности.

Original size 3214x1490
Анализ данных самых популярных фильмов и сериалов
Project created at 29.01.2025
We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more