Original size 587x782

Удивительный изюм: анализ разновидностей изюма

PROTECT STATUS: not protected
5

Концепция

big
Original size 1340x249

В этом проекте я проанализировала данные морфологических характеристик изюма для классификации сортов, а именно — Кечимен и Бесни — для их дальнейшей классификации и дифференциации.

big
Original size 961x170

Изначально причина этого исследования несла в себе исключительно юмористический характер, так как, увидев этот набор данных на сайте Kaggle (kaggle.com), мне стало забавно, что кто-то потратил время и силы на формирование датасета про изюм.

Поэтому я решила потратить свои время и силы на визуальный анализ данных про этот самый изюм, так как мне стало интересно сделать графики и подобрать взаимосвязи не самых очевидных признаков.

big
Original size 676x108

Набор данных включает 7 морфологических характеристик каждого зерна, рассчитанных на основе их изображений: - площадь (количество пикселей в пределах границы изюминки) - длина главной и малой оси - эксцентриситет (показатель того, насколько вытянут изюм по сравнению с идеальным кругом) - выпуклая область - масштаб - периметр - класс

big
Original size 961x170

Для исследования были выбраны следующие виды графиков: - сложенная столбчатая диаграмма (наглядно показать средние значения морфологических характеристик для сортов) - диаграмма рассеяния (исследовать взаимосвязь между характеристиками, так как этот вид диаграмм дает возможность визуализировать корреляции и закономерности данных) - тепловая карта корреляций (выбрать наиболее значимые для дальнейшего анализа признаки) - гистограммы распределений (дает представление о вариациях и схожести характеристик между сортами)

Original size 1340x249

Использованные библиотеки

В данном коде используются следующие библиотеки: pandas (pd) для работы с файлами, matplotlib.pyplot (plt) для создания основной визуализации, seaborn (sns) для стилизации графиков, а также numpy (np) для выполнения вычислений и работы с массивами данных.

Original size 1284x380

Обработка данных

Original size 1340x249

Я начала свой анализ данных с автоматической классификации столбцов в датафрейме df, чтобы разделить их три группы: числовые столбцы, категориальные столбцы и категориальные столбцы с высокой кардинальностью (большим количеством уникальных значений)

Original size 906x193
Original size 676x108

Визуализацию данных я прописывала с настройки стиля и создания фигуры, после чего задавала цветовую палитру.

Палитра выбрана в коричневых оттенках с акцентным желтым цветом, потому что она ассоциируется с разновидностями сортов изюма.

Original size 883x123
Original size 961x170

Дальше построение основы графика вместе с настройкой визуальных элементов.

Original size 935x142

Последний шаг — корректирование компоновки графика (регулирование отступов и размера), отображение графика и вызов функции передачей датафрейма.

Original size 688x91
Original size 1340x249

Визуализация данных

Original size 1340x249
Original size 2172x1557

Эта гистограмма предоставляет визуальную информацию о распределении значений числовых характеристик изюма, таких как Area, Perimeter, Convex Area, и других, помогая понять, как эти параметры варьируются и где сосредоточены основные значения.

Так, даже в столь не стандартных признаках мы можем сделать вывод их этого графика, например:

Из плотных распределений для разных классов можно указать метрики, чтобы использовать их для классификации сортов изюма.

Из гистограммы можно найти редкие значения, которые могут быть ошибками в данных или уникальными объектами (изюминками).

Original size 1340x249
Original size 1332x706

Эти гистограммы отображают распределение числовых характеристик, таких как площади, периметры, эксцентриситет и другие морфологические параметры зерен изюма.

Визуализация этих данных, может дать лучше понять, как распределены различные признаки и выявить потенциальные аномалии или паттерны сортов.

Original size 1340x249
Original size 2174x1421

Этот график представляет собой диаграмму рассеяния, где отображена зависимость между площадью зёрен изюма и длиной выпуклой оболочки.

Отсюда мы видим, что классы сильно пересекаются, скорее всего это свидетельствует о том, что для различения сортов изюма нам нужны другие признаки.

Original size 1340x249
Original size 2699x2418

Этот график я считаю главной изюминкой проекта. Он был выбрал для измерения степени линейной зависимости между переменными, насколько они связаны или противоположны.

Например, темно-красный цвет указывает на отрицательную корреляцию, а значит мы можем проследить какие данные изменяются противоположно друг другу. Например, «Eccentricity» и «Extent», с увеличением эксцентриситета (объект становится более вытянутым), площадь объекта относительно ограничения уменьшается.

Ярко-желтый же показывает какие переменные изменяются в одну сторону. Например, «Perimeter» и «Area», то есть более крупные зерна имеют больший периметр.

Удивительный изюм: анализ разновидностей изюма
5
We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more