
Концепция

В этом проекте я проанализировала данные морфологических характеристик изюма для классификации сортов, а именно — Кечимен и Бесни — для их дальнейшей классификации и дифференциации.

Изначально причина этого исследования несла в себе исключительно юмористический характер, так как, увидев этот набор данных на сайте Kaggle (kaggle.com), мне стало забавно, что кто-то потратил время и силы на формирование датасета про изюм.
Поэтому я решила потратить свои время и силы на визуальный анализ данных про этот самый изюм, так как мне стало интересно сделать графики и подобрать взаимосвязи не самых очевидных признаков.

Набор данных включает 7 морфологических характеристик каждого зерна, рассчитанных на основе их изображений: - площадь (количество пикселей в пределах границы изюминки) - длина главной и малой оси - эксцентриситет (показатель того, насколько вытянут изюм по сравнению с идеальным кругом) - выпуклая область - масштаб - периметр - класс

Для исследования были выбраны следующие виды графиков: - сложенная столбчатая диаграмма (наглядно показать средние значения морфологических характеристик для сортов) - диаграмма рассеяния (исследовать взаимосвязь между характеристиками, так как этот вид диаграмм дает возможность визуализировать корреляции и закономерности данных) - тепловая карта корреляций (выбрать наиболее значимые для дальнейшего анализа признаки) - гистограммы распределений (дает представление о вариациях и схожести характеристик между сортами)
Использованные библиотеки
В данном коде используются следующие библиотеки: pandas (pd) для работы с файлами, matplotlib.pyplot (plt) для создания основной визуализации, seaborn (sns) для стилизации графиков, а также numpy (np) для выполнения вычислений и работы с массивами данных.
Обработка данных
Я начала свой анализ данных с автоматической классификации столбцов в датафрейме df, чтобы разделить их три группы: числовые столбцы, категориальные столбцы и категориальные столбцы с высокой кардинальностью (большим количеством уникальных значений)
Визуализацию данных я прописывала с настройки стиля и создания фигуры, после чего задавала цветовую палитру.
Палитра выбрана в коричневых оттенках с акцентным желтым цветом, потому что она ассоциируется с разновидностями сортов изюма.
Дальше построение основы графика вместе с настройкой визуальных элементов.
Последний шаг — корректирование компоновки графика (регулирование отступов и размера), отображение графика и вызов функции передачей датафрейма.
Визуализация данных
Эта гистограмма предоставляет визуальную информацию о распределении значений числовых характеристик изюма, таких как Area, Perimeter, Convex Area, и других, помогая понять, как эти параметры варьируются и где сосредоточены основные значения.
Так, даже в столь не стандартных признаках мы можем сделать вывод их этого графика, например:
Из плотных распределений для разных классов можно указать метрики, чтобы использовать их для классификации сортов изюма.
Из гистограммы можно найти редкие значения, которые могут быть ошибками в данных или уникальными объектами (изюминками).
Эти гистограммы отображают распределение числовых характеристик, таких как площади, периметры, эксцентриситет и другие морфологические параметры зерен изюма.
Визуализация этих данных, может дать лучше понять, как распределены различные признаки и выявить потенциальные аномалии или паттерны сортов.
Этот график представляет собой диаграмму рассеяния, где отображена зависимость между площадью зёрен изюма и длиной выпуклой оболочки.
Отсюда мы видим, что классы сильно пересекаются, скорее всего это свидетельствует о том, что для различения сортов изюма нам нужны другие признаки.
Этот график я считаю главной изюминкой проекта. Он был выбрал для измерения степени линейной зависимости между переменными, насколько они связаны или противоположны.
Например, темно-красный цвет указывает на отрицательную корреляцию, а значит мы можем проследить какие данные изменяются противоположно друг другу. Например, «Eccentricity» и «Extent», с увеличением эксцентриситета (объект становится более вытянутым), площадь объекта относительно ограничения уменьшается.
Ярко-желтый же показывает какие переменные изменяются в одну сторону. Например, «Perimeter» и «Area», то есть более крупные зерна имеют больший периметр.