Original size 900x1200

Анализ данных с Кинопоиска

PROTECT STATUS: not protected
4

Этот проект посвящен анализу оценок фильмов, собранных с платформы «Кинопоиск». В рамках работы был проведен разбор данных, очистка, а также визуализация ключевых характеристик, таких как распределение оценок, связь количества рецензий со средней оценкой и выявление лучших и худших фильмов.

big
Original size 1699x906

Используемые технологии: Python Pandas Matplotlib Seaborn Hugging Face Datasets

Основные задачи проекта Загрузка и предобработка данных (удаление дубликатов, преобразование типов данных). Построение графиков для визуализации оценок фильмов. Анализ взаимосвязи количества рецензий и средней оценки. Определение топ-10 лучших и худших фильмов по средней оценке.

big
Original size 876x548
Original size 1014x723
Original size 1019x788

Результаты анализа: Определены топ-10 лучших и худших фильмов. Найдена зависимость между количеством рецензий и средней оценкой.

Данные были выбраны с сайта Kinopoisk, а именно информацию о фильмах, включая названия фильмов, оценки пользователей, количество рецензий и их содержание. Эти данные были получены через библиотеку datasets из репозитория Hugging Face, с использованием датасета blinoff/kinopoisk.

post

Этапы работы Подготовка данных Сначала я загрузила датасет с помощью библиотеки datasets и преобразовала его в формат pandas DataFrame, что позволило удобно работать с данными. После этого я удалила дубликаты, чтобы избежать некорректных данных, а также преобразовала столбец с оценками (grade10) в числовой формат, чтобы работать с ними в дальнейшем. Агрегация данных Для дальнейшего анализа я сосредоточилась на топ-10 фильмах с наибольшим количеством рецензий и их средними оценками. Для этого я использовала агрегирующие функции value_counts () и groupby (). Визуализация данных Для визуализации я использовала библиотеку seaborn для построения графиков. Я создала графики для анализа.

Код и датасет:

Анализ данных с Кинопоиска
4
We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more