Original size 928x1312

Анализ данных о трендах в женской моде и их визуализация

PROTECT STATUS: not protected
2

Введение

Для выполнения задания был выбран Women Fashion Trend Dataset с платформы Kaggle https://www.kaggle.com/datasets/durgeshrao9993/dataset, который содержит информацию о трендах в женской моде.

Этот датасет включает данные о различных элементах моды: одежда, аксессуары, обувь и косметика. Данные представлены в табличной форме и включают такие параметры как цена, количество продаж, рейтинг и другие характеристики товаров.

Поскольку датасет содержит довольно большое количество информации и он состоит из 43 столбцов, для анализа были отобраны наиболее интересные мне поля.

price — цена товара units_sold — количество проданных единиц товара rating — рейтинг товара

Этапы работы

1. Распределение цен на товары 2. Распределение рейтингов 3. Корреляционный анализ 4. Взаимосвязь между ценой и количеством продаж 5. Анализ выбросов с помощью боксплотов 6. Корреляционные облака

big
Original size 1757x645

Установим стиль и цветовую палитру

big
Original size 1484x245

Создание новой колонки для категории

Original size 1769x102

Функция для настройки графиков

Original size 1770x415

Распределение цен на товары

Original size 1920x220
Original size 1175x700

Этот график показывает, что большинство товаров имеют цены ниже 10 евро с пиком в диапазоне от 2 до 5 евро.

Распределение рейтингов

Original size 1840x227
Original size 1182x702

Большинство товаров имеют рейтинги от 3 до 4, что указывает на среднее качество товаров.

Корреляционный анализ

Original size 1598x142

Корелляционная матрица

Original size 1412x152
Original size 1357x537

Корреляционная матрица показывает слабую взаимосвязь между ценой, количеством продаж и рейтингом.

Визуализация корреляционнонной матрицы

Original size 1880x254
Original size 775x695

Вычислить корреляции и p-values

Original size 1825x429

Вывести результаты корреляционного анализа

Original size 1877x155

Корреляции и p-values для каждой пары переменных: Корреляция между price и units_sold: -0.0248, p-value: 0.3253 Корреляция между price и rating: 0.0535, p-value: 0.0340 Корреляция между units_sold и price: -0.0248, p-value: 0.3253 Корреляция между units_sold и rating: 0.0395, p-value: 0.1176 Корреляция между rating и price: 0.0535, p-value: 0.0340 Корреляция между rating и units_sold: 0.0395, p-value: 0.1176

Эти результаты показывают, что наблюдаемые корреляции не являются статистически значимыми.

Значит, нет сильной взаимосвязи между этими переменными в наших данных, за исключением слабой взаимосвязи между ценой и рейтингом, где p-value указывает на возможную статистическую значимость.

Взаимосвязь между ценой и количеством продаж

Original size 1920x152
Original size 1199x702

Диаграмма рассеяния показывает, что товары с низкой ценой имеют высокий объем продаж, а товары с высокой ценой продаются в меньшем количестве.

Боксплот для анализа выбросов (цены)

Original size 1795x312
Original size 1112x702

Видно, что большинство цен находятся в диапазоне до 10 евро, с несколькими выбросами.

Боксплот для анализа выбросов (рейтинги)

Original size 1829x304
Original size 1124x692

Видно, что большинство рейтингов находятся в диапазоне от 3 до 4, с несколькими выбросами.

Заключение

Проведенный анализ показал, что большинство товаров имеют низкую цену и средний рейтинг от 3 до 4.

Корреляционный анализ показал слабую взаимосвязь между переменными, причем большинство из них не являются статистически значимыми.

Анализ выбросов с помощью боксплотов выявил наличие выбросов в ценах и рейтингах, что может указывать на отдельные аномальные значения.

Анализ данных о трендах в женской моде и их визуализация
2
We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more