Original size 2280x3198

Анализ данных о бананах

PROTECT STATUS: not protected

Описание

Более 100 миллиардов бананов съедают на нашей планете каждый год, что делает их одним из самых популярных сельскохозяйственных продуктов.

И я в числе тех, кто покупает бананы круглый год!

post

Датасет данных с качеством бананов (почему он?)

Данный набор данных был выбран по той причине, что в дальнейшем с ним можно будет проводить интересную работу по классификации бананов, а также предсказывать качество бананов, используя регрессию, чтобы покупать только вкусные бананы!

Источник данных — kaggle.com

Описание данных

sample_id: Уникальный идентификатор, присвоенный каждому образцу банана в датасете. Это позволяет отслеживать и уникально ссылаться на образцы.

variety: Сорт или порода банана, например, Кавендиш, Красный Дакка или Леди Фингер. Знание конкретного сорта банана дает контекст для физических характеристик образца и условий его выращивания.

region: Географическое происхождение банана, например, Эквадор, Филиппины или Коста-Рика. Регион может влиять на такие факторы, как климат, почва и методы выращивания, которые сказываются на качестве банана.

post

quality_score: Числовой балл, вероятно, в диапазоне от 1 до 4, который оценивает общее качество образца банана. Это может включать такие факторы, как внешний вид, текстура и отсутствие дефектов.

quality_category: Текстовая метка, которая классифицирует балл качества в более широкие категории, такие как «Отличное» и т. д. Это облегчает восприятие оценки качества.

ripeness_index: Числовой индекс, представляющий уровень зрелости банана, возможно, в диапазоне от 1 (зеленый/незрелый) до 10 (перезрелый). Это количественно оценивает зрелость фрукта.

ripeness_category: Текстовая метка, такая как «Зеленый», «Желтый», «Созревший» или «Перезрелый», соответствующая индексу зрелости. Это дает четкую качественную классификацию зрелости.

sugar_content_brix: Содержание сахара в банане, измеряемое в градусах Брикса. Это распространенный способ оценки сладости и качества фрукта.

firmness_kgf: Твердость банана, измеряемая в килограммах-силе. Это показывает текстуру и зрелость образца.

length_cm: Физическая длина банана в сантиметрах. Этот показатель может варьироваться в зависимости от сорта и условий выращивания.

Original size 1102x526

Графики

Было решено построить распределение качества бананов по категориям и по зрелости в виде гистограмм, поскольку именно гистограммы отображают количество данных каждого класса для понимания возможности дальнейшего обучения.

Графики зависимости качества банана от региона, содержания сахара и возраста дерева были представлены в качестве линейных чтобы посмотреть на возможность предсказания качества бананов, используя регрессию.

(1)

Original size 848x548

Гистограмма Распределение качества бананов по категориям

plt.figure () sns.countplot (x='quality_category', data=df, order=df['quality_category'].value_counts ().index, palette="viridis») plt.title ('Распределение качества бананов по категориям', fontsize=14) plt.xlabel ('Категория качества', fontsize=12) plt.ylabel ('Количество', fontsize=12) plt.show ()

((2))

Original size 848x548

Гистограмма Распределение зрелости бананов

plt.figure () sns.countplot (x='ripeness_category', data=df, order=df['ripeness_category'].value_counts ().index, palette="plasma») plt.title ('Распределение зрелости бананов', fontsize=14) plt.xlabel ('Категория зрелости', fontsize=12) plt.ylabel ('Количество', fontsize=12) plt.show ()

(((3)))

Original size 852x592

Линейный график Зависимость качества бананов от региона

plt.figure () df.groupby ('region')['quality_score'].mean ().sort_values ().plot (kind='line', marker='o', color='teal') plt.title ('Зависимость качества бананов от региона', fontsize=14) plt.xlabel ('Регион', fontsize=12) plt.ylabel ('Средний балл качества', fontsize=12) plt.xticks (rotation=45) plt.show ()

((((4))))

Original size 844x548

Линейный график Зависимость качества бананов от содержания сахара

plt.figure () sns.lineplot (x='sugar_content_brix', y='quality_score', data=df, ci=None, color='orange') plt.title ('Зависимость качества бананов от содержания сахара', fontsize=14) plt.xlabel ('Содержание сахара (Brix)', fontsize=12) plt.ylabel ('Балл качества', fontsize=12) plt.show ()

(((((5)))))

Original size 852x548

Линейный график Зависимость качества бананов от возраста

plt.figure () sns.lineplot (x='tree_age_years', y='quality_score', data=df, ci=None, color='purple') plt.title ('Зависимость качества бананов от возраста дерева', fontsize=14) plt.xlabel ('Возраст дерева (лет)', fontsize=12) plt.ylabel ('Балл качества', fontsize=12) plt.show ()

Список источников

Блокнот и датасет

Анализ данных о бананах
Project created at 29.01.2025
We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more