
Введение
Для выполнения задания был выбран Women Fashion Trend Dataset с платформы Kaggle https://www.kaggle.com/datasets/durgeshrao9993/dataset, который содержит информацию о трендах в женской моде.
Этот датасет включает данные о различных элементах моды: одежда, аксессуары, обувь и косметика. Данные представлены в табличной форме и включают такие параметры как цена, количество продаж, рейтинг и другие характеристики товаров.
Поскольку датасет содержит довольно большое количество информации и он состоит из 43 столбцов, для анализа были отобраны наиболее интересные мне поля.
price — цена товара units_sold — количество проданных единиц товара rating — рейтинг товара
Этапы работы
1. Распределение цен на товары 2. Распределение рейтингов 3. Корреляционный анализ 4. Взаимосвязь между ценой и количеством продаж 5. Анализ выбросов с помощью боксплотов 6. Корреляционные облака

Установим стиль и цветовую палитру

Создание новой колонки для категории
Функция для настройки графиков
Распределение цен на товары
Этот график показывает, что большинство товаров имеют цены ниже 10 евро с пиком в диапазоне от 2 до 5 евро.
Распределение рейтингов
Большинство товаров имеют рейтинги от 3 до 4, что указывает на среднее качество товаров.
Корреляционный анализ
Корелляционная матрица
Корреляционная матрица показывает слабую взаимосвязь между ценой, количеством продаж и рейтингом.
Визуализация корреляционнонной матрицы
Вычислить корреляции и p-values
Вывести результаты корреляционного анализа
Корреляции и p-values для каждой пары переменных: Корреляция между price и units_sold: -0.0248, p-value: 0.3253 Корреляция между price и rating: 0.0535, p-value: 0.0340 Корреляция между units_sold и price: -0.0248, p-value: 0.3253 Корреляция между units_sold и rating: 0.0395, p-value: 0.1176 Корреляция между rating и price: 0.0535, p-value: 0.0340 Корреляция между rating и units_sold: 0.0395, p-value: 0.1176
Эти результаты показывают, что наблюдаемые корреляции не являются статистически значимыми.
Значит, нет сильной взаимосвязи между этими переменными в наших данных, за исключением слабой взаимосвязи между ценой и рейтингом, где p-value указывает на возможную статистическую значимость.
Взаимосвязь между ценой и количеством продаж
Диаграмма рассеяния показывает, что товары с низкой ценой имеют высокий объем продаж, а товары с высокой ценой продаются в меньшем количестве.
Боксплот для анализа выбросов (цены)
Видно, что большинство цен находятся в диапазоне до 10 евро, с несколькими выбросами.
Боксплот для анализа выбросов (рейтинги)
Видно, что большинство рейтингов находятся в диапазоне от 3 до 4, с несколькими выбросами.
Заключение
Проведенный анализ показал, что большинство товаров имеют низкую цену и средний рейтинг от 3 до 4.
Корреляционный анализ показал слабую взаимосвязь между переменными, причем большинство из них не являются статистически значимыми.
Анализ выбросов с помощью боксплотов выявил наличие выбросов в ценах и рейтингах, что может указывать на отдельные аномальные значения.