Original size 1140x1600

Анализ продукции компании по производству одежды Myntra

PROTECT STATUS: not protected
14

Вводная часть

Для анализа данных я решила выбрать наборы данных с сайта Kaggle.com. Я заинтересовалась темой одежды и выбрал базу данных, связанную с ассортиментом одежды, выпускаемой компанией Myntra.

big
Original size 1280x720

Логотип компании Myntra

Myntra — крупная индийская компания электронной коммерции в сфере моды со штаб-квартирой в Бангалоре, штат Карнатака, Индия.] Компания была основана в 2007 году для продажи персонализированных сувениров. В мае 2014 года Myntra.com была приобретена компанией Flipkart.

База данных

big
Original size 1420x383

Датасет на сайте Kaggle.com

Для визуализации данных я использовала библиотеки Seaborn и Matplotlib, для анализа данных использовались библиотеки Scikit-learn и scipy.stats. Это позволит создавать удобные и красивые графики, чтобы отразить зависимости между данными.

База данных состоит из 12491 строк и 8 колонок, каждая строчка соответствует продукту компании и имеет такие показатели, как — номер, название и бренд продукта, гендер, цену, кол-во картинок, описание и цвет.

Среда разработки

Для выполнения анализа данных будем использовать среду разработки Jupyter Notebook

Jupyter Notebook — это интерактивная веб-приложение, которое позволяет создавать и использовать «ноутбуки» (отсюда и название). В этих ноутбуках можно объединить исполняемый код, текстовые описания, визуализации и другие мультимедийные элементы. Jupyter Notebook поддерживает более 40 языков программирования, включая Python, R и Julia.

Анализ данных

Для начала подключаем библиотеки, вот столько у меня их получилось в конечном итоге

Original size 497x274

Код № 1

Нам необходимо загрузить датасет и написать код, который описывает основные статистические характеристики данных и предоставляет информацию о типах данных и количестве непустых значений. Это важный шаг для первоначального анализа и понимания структуры данных. Выполнение этих шагов помогает подготовить данные для дальнейшего анализа и визуализации.

Original size 592x252

Код № 2

Original size 380x313

Выдача кода № 2

Original size 679x387

Выдача кода № 2

Original size 655x769

Выдача кода № 2

Для удобства анализа, мы будем работать только с колонками ProductID, Gender, Price (INR), PrimaryColor.

Original size 695x89

Код № 3

Original size 374x67

Код № 4

Original size 494x583

Выдача кода № 4

Вычислим сколько всего гендеров бывает в базе данных и построим две круговые диаграммы: кол-во продуктов для каждого гендера и средняя цена продуктов для каждого гендера.

Original size 816x543

Код № 5

Получились две диаграммы, но хотелось бы их стилизовать, используем стиль Pitaya smoothie.

Original size 1118x507

Выдача кода № 5

Pitaya smoothie — профессиональная тема с тщательно подобранными цветами, вдохновленная модным цветом Pantone 2018 года.

Original size 1269x255

Пример светлой темы стиля

Original size 1269x255

Пример темной темы стиля

Original size 903x751

Код № 6

Теперь цвета на диаграммах выглядят поприятнее, но сами диаграммы не очень информативные, попробуем использовать другой вид диаграмм.

Original size 1246x533

Выдача кода № 6

Original size 569x125

Код № 7

Вот например столбчатая диаграмма, которая отображает кол-во продуктов по каждому цвету. Цвета я решила использовать белый (white) для обводки и фиолетовый (violet) для заливки.

Original size 848x588

Выдача кода № 7

Original size 757x254

Код № 8

Original size 848x585

Выдача кода № 8

Original size 0x0

Код № 9

Теперь другой вид диаграммы — ящик с усиками (boxplot) Для корректного отображения выполним фильтрацию выбросов.

Original size 585x483

Выдача кода № 9

Original size 962x388

Код № 10

Original size 1129x732

Выдача кода № 10

Это точечная диаграмма распределения, но давайте сделаем ее визуально приятной, проведем фильтрацию данных и настроим цветной градиент.

Original size 973x506

Код № 11

Original size 1122x732

Выдача кода № 11

Наконец то мы перешли к теоретическому анализу данных и построению модели линейной регрессии. Для этого необходимо выполнить: преобразование категориальных признаков, разделить данные, выполнить обучение, прогнозирование и оценку модели.

Original size 927x693

Код № 12

Original size 939x670

Выдача кода № 12

Mean Squared Error (MSE) MSE — это среднеквадратичная ошибка, один из наиболее часто используемых методов оценки точности регрессионных моделей. Она вычисляется как среднее арифметическое квадратов ошибок, где ошибка — это разница между фактическим значением и предсказанным значением.

R² Score R² Score, или коэффициент детерминации, — это показатель, который указывает на долю дисперсии зависимой переменной, объясненную независимыми переменными в модели. Он варьируется от 0 до 1 (или может быть отрицательным, если модель совсем плохая), где 1 указывает на идеальное соответствие.

Статистический анализ

Далее выполним статистический анализ, в него будут входить: проверка нормальности распределения, равенства дисперсий и значимости различий между группами (ANOVA), а также Kruskal-Wallis H-тест и построение графика для наглядности.

Original size 661x318

Код № 13

Original size 695x560

Вывод кода № 13

Original size 563x320

Код № 14

Original size 298x46

Вывод кода № 14

Original size 632x318

Код № 15

Original size 465x56

Вывод кода № 15

Original size 442x88

Код № 16

Original size 856x536

Выдача кода № 16

Мы выполнили статистический анализ данных, но на точечной диаграмме отображение некорректно, поэтому используем box-plot.

Original size 1106x415

Код № 17

Original size 1008x704

Выдача кода № 17

Вывод

Мы провели анализ, построили модель линейной регрессии для прогнозирования цен на основании данных о товарах компании Myntra.

Оформление графиков

Original size 848x585

На выбор цветовой палитры меня подтолкнула сгенерированная с помощью нейросети обложка проекта.

Цвет текста:

#000000

Цвета графиков:

#ee82ee

#ffffff

#212946

Описание применения генеративной модели

Иллюстрация для обложки была создана с использованием нейросети на базе Stable Diffusion. Написанный промпт:

«An illustration of a stylish clothing item (like a dress, suit, or outfit) with an abstract, modern design. The style should be reminiscent of an Art Deco poster, with bold lines, geometric shapes, and a gradient color scheme. The clothing item should be the focal point, set against a minimalist background. The overall effect should be striking and artistic, conveying a sense of fashion and elegance.»

Нейросеть: https://huggingface.co/spaces/stabilityai/stable-diffusion-3-medium

Анализ продукции компании по производству одежды Myntra
14
We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more