
Вводная часть
Для анализа данных я решила выбрать наборы данных с сайта Kaggle.com. Я заинтересовалась темой одежды и выбрал базу данных, связанную с ассортиментом одежды, выпускаемой компанией Myntra.

Логотип компании Myntra
Myntra — крупная индийская компания электронной коммерции в сфере моды со штаб-квартирой в Бангалоре, штат Карнатака, Индия.] Компания была основана в 2007 году для продажи персонализированных сувениров. В мае 2014 года Myntra.com была приобретена компанией Flipkart.
База данных

Датасет на сайте Kaggle.com
Для визуализации данных я использовала библиотеки Seaborn и Matplotlib, для анализа данных использовались библиотеки Scikit-learn и scipy.stats. Это позволит создавать удобные и красивые графики, чтобы отразить зависимости между данными.
База данных состоит из 12491 строк и 8 колонок, каждая строчка соответствует продукту компании и имеет такие показатели, как — номер, название и бренд продукта, гендер, цену, кол-во картинок, описание и цвет.
Среда разработки
Для выполнения анализа данных будем использовать среду разработки Jupyter Notebook
Jupyter Notebook — это интерактивная веб-приложение, которое позволяет создавать и использовать «ноутбуки» (отсюда и название). В этих ноутбуках можно объединить исполняемый код, текстовые описания, визуализации и другие мультимедийные элементы. Jupyter Notebook поддерживает более 40 языков программирования, включая Python, R и Julia.
Анализ данных
Для начала подключаем библиотеки, вот столько у меня их получилось в конечном итоге
Код № 1
Нам необходимо загрузить датасет и написать код, который описывает основные статистические характеристики данных и предоставляет информацию о типах данных и количестве непустых значений. Это важный шаг для первоначального анализа и понимания структуры данных. Выполнение этих шагов помогает подготовить данные для дальнейшего анализа и визуализации.
Код № 2
Выдача кода № 2
Выдача кода № 2
Выдача кода № 2
Для удобства анализа, мы будем работать только с колонками ProductID, Gender, Price (INR), PrimaryColor.
Код № 3
Код № 4
Выдача кода № 4
Вычислим сколько всего гендеров бывает в базе данных и построим две круговые диаграммы: кол-во продуктов для каждого гендера и средняя цена продуктов для каждого гендера.
Код № 5
Получились две диаграммы, но хотелось бы их стилизовать, используем стиль Pitaya smoothie.
Выдача кода № 5
Pitaya smoothie — профессиональная тема с тщательно подобранными цветами, вдохновленная модным цветом Pantone 2018 года.
Пример светлой темы стиля
Пример темной темы стиля
Код № 6
Теперь цвета на диаграммах выглядят поприятнее, но сами диаграммы не очень информативные, попробуем использовать другой вид диаграмм.
Выдача кода № 6
Код № 7
Вот например столбчатая диаграмма, которая отображает кол-во продуктов по каждому цвету. Цвета я решила использовать белый (white) для обводки и фиолетовый (violet) для заливки.
Выдача кода № 7
Код № 8
Выдача кода № 8
Код № 9
Теперь другой вид диаграммы — ящик с усиками (boxplot) Для корректного отображения выполним фильтрацию выбросов.
Выдача кода № 9
Код № 10
Выдача кода № 10
Это точечная диаграмма распределения, но давайте сделаем ее визуально приятной, проведем фильтрацию данных и настроим цветной градиент.
Код № 11
Выдача кода № 11
Наконец то мы перешли к теоретическому анализу данных и построению модели линейной регрессии. Для этого необходимо выполнить: преобразование категориальных признаков, разделить данные, выполнить обучение, прогнозирование и оценку модели.
Код № 12
Выдача кода № 12
Mean Squared Error (MSE) MSE — это среднеквадратичная ошибка, один из наиболее часто используемых методов оценки точности регрессионных моделей. Она вычисляется как среднее арифметическое квадратов ошибок, где ошибка — это разница между фактическим значением и предсказанным значением.
R² Score R² Score, или коэффициент детерминации, — это показатель, который указывает на долю дисперсии зависимой переменной, объясненную независимыми переменными в модели. Он варьируется от 0 до 1 (или может быть отрицательным, если модель совсем плохая), где 1 указывает на идеальное соответствие.
Статистический анализ
Далее выполним статистический анализ, в него будут входить: проверка нормальности распределения, равенства дисперсий и значимости различий между группами (ANOVA), а также Kruskal-Wallis H-тест и построение графика для наглядности.
Код № 13
Вывод кода № 13
Код № 14
Вывод кода № 14
Код № 15
Вывод кода № 15
Код № 16
Выдача кода № 16
Мы выполнили статистический анализ данных, но на точечной диаграмме отображение некорректно, поэтому используем box-plot.
Код № 17
Выдача кода № 17
Вывод
Мы провели анализ, построили модель линейной регрессии для прогнозирования цен на основании данных о товарах компании Myntra.
Оформление графиков
На выбор цветовой палитры меня подтолкнула сгенерированная с помощью нейросети обложка проекта.
Цвет текста:
#000000
Цвета графиков:
#ee82ee
#ffffff
#212946
Описание применения генеративной модели
Иллюстрация для обложки была создана с использованием нейросети на базе Stable Diffusion. Написанный промпт:
«An illustration of a stylish clothing item (like a dress, suit, or outfit) with an abstract, modern design. The style should be reminiscent of an Art Deco poster, with bold lines, geometric shapes, and a gradient color scheme. The clothing item should be the focal point, set against a minimalist background. The overall effect should be striking and artistic, conveying a sense of fashion and elegance.»
Нейросеть: https://huggingface.co/spaces/stabilityai/stable-diffusion-3-medium