
Для анализа я выбрала тему: «Мировые привычки потребления кофе»

Описание проекта:
Основная цель проекта — изучить, как сезон, температура, время суток, вкусовые предпочтения и состав напитков влияют на продажи кофе, а также найти необычные и редкие кофейные напитки с экзотическими ингредиентами.
Я выбрала эту тему по нескольким причинам: Во-первых, это связано с моим личным интересом. Я регулярно пью кофе и хотела глубже разобраться в том, как формируются привычки его потребления. Во-вторых, кофе является одним из самых популярных напитков в мире, однако его потребление значительно варьируется в зависимости от климата, времени суток и культурных особенностей. В-третьих, анализ данных о продажах, составе напитков и пользовательских рейтингах позволяет выявить скрытые закономерности, такие как утренние и сезонные пики спроса, популярные вкусы и влияние состава напитка на его востребованность.

Я использовала два датасета для анализа этой темы. Мне пришлось расширить анализ до двух наборов данных, чтобы сделать исследование более полным и информативным.
Первый набор данных содержит почасовые записи о продажах кофе и соответствующие показатели температуры воздуха. Он позволяет выявить взаимосвязь между температурой и спросом на кофе в течение дня, а также проанализировать структуру продаж и влияние погодных условий на поведение потребителей.
Второй набор данных содержит подробную информацию о кофейных напитках, включая состав, изображения, пользовательские рейтинги и количество отзывов для различных типов кофе (латте, капучино, эспрессо, фильтр-кофе и авторские напитки).
Оба набора данных были найдены на интернет-ресурсе Kaggle.
Типы графиков:
Для анализа данных временные параметры были агрегированы по часам и месяцам, что позволило выявить суточные и сезонные колебания спроса. Для каждого напитка было подсчитано количество ингредиентов, а также выделены уникальные и «экзотические» компоненты.
При построении графиков использовались ключевые метрики: среднее значение, медиана и количество оценок. Статистические методы включали расчёт среднего значения (mean) и стандартного отклонения (std) для оценки среднего уровня потребления, а также 95%-й доверительный интервал для повышения надёжности результатов. Дополнительно был проведён корреляционный анализ для определения зависимости продаж кофе от температуры воздуха. Сравнительный анализ по категориям напитков и количеству ингредиентов позволил выявить закономерности в предпочтениях потребителей.
Этапы работы:
Загрузка и подготовка данных
Данные были загружены из CSV-файлов через платформу Google Colab. Для преобразования столбцов с числовыми значениями, таких как рейтинг, количество отзывов и объём продаж, в числовой формат использовался метод pd.to_numeric библиотеки Pandas.
В ходе проекта применялся язык программирования Python совместно с библиотеками Pandas, Matplotlib и Seaborn для анализа данных и визуализации. На начальном этапе была создана цветовая палитра, которая впоследствии использовалась для оформления всех графиков. Программа осуществляла загрузку данных, их очистку и последующее сохранение.
Для повышения эффективности работы над проектом я обращалась к ChatGPT, что позволило оптимизировать код и рассмотреть различные подходы к анализу данных.
Стилистика и оформление графиков
Все графики стилизованы в единой цветовой палитре, вдохновлённой кофе:
Светло-бежевый (молочная пена) — #F6EFE8 Кремово-карамельный — #E8D8C3 Оливковый акцент — #A3B18A Нежно-розовый — #EAC7C7 Кофейно-коричневый — #5A3E2B
Цветовая палитра
Пример кода для настройки стиля
График 1: Зависимость продаж кофе от температуры
Исследование продаж кофе в зависимости от температуры показало обратную зависимость: при повышении температуры воздуха объёмы продаж кофе постепенно снижаются.
На графике видно, что в прохладные и холодные дни спрос на горячие напитки значительно выше, тогда как в жаркую погоду продажи уменьшаются. Это подтверждает закономерность потребления горячих напитков в холодное время года и подчёркивает важность учёта погодных условий при планировании ассортимента.
График \ Пример кода
График 2: Гистограмма распределения продаж
Гистограмма демонстрирует распределение объёмов продаж кофе за весь период наблюдения. Основная масса значений сосредоточена вокруг среднего уровня, однако также наблюдаются отдельные пики спроса. Такие всплески, как правило, приходятся на утренние часы и рабочие дни.
Анализ гистограммы позволяет оценить стабильность спроса и выявить периоды повышенной нагрузки, что важно для планирования персонала и объёмов закупок.
График \ Пример кода
График 3: Топ-10 напитков по количеству оценок
Горизонтальная столбчатая диаграмма показывает напитки, которые получили наибольшее количество пользовательских оценок. Как правило, это классические кофейные напитки — латте, капучино и американо.
Высокое количество оценок указывает на широкую популярность и доверие со стороны потребителей.
График \ Пример кода
График 4. Распределение рейтингов кофе
Для четвертого графика мы построили гистограмму с кривой плотности (KDE), показывающую распределение рейтингов всех сортов кофе в нашем датасете. Цель графика — наглядно показать, как оценивают кофе пользователи: преобладают ли высокие рейтинги, средние или низкие.
График показывает, что большинство сортов кофе получают средне-высокие оценки, что можно использовать для дальнейшего анализа, например, для выбора наиболее популярных сортов для промо-акций или рекомендаций
График \ Пример кода
График 5: Круговая диаграмма распределения ингредиентов/вкусов кофе
Этот график показывает, как часто встречаются разные вкусовые нотки или ингредиенты среди всех сортов кофе в нашем датасете. Каждая «доля» на диаграмме соответствует определённому вкусу, а размер сектора отражает количество сортов с этим вкусом. Такой тип визуализации позволяет сразу увидеть, какие вкусы встречаются чаще всего, а какие реже, и наглядно сравнить их доли. Цвета выбраны в тёплой палитре, чтобы сохранить единый стиль инфографики о кофе, а чёткие границы секторов помогают легко воспринимать информацию. Этот график дополняет остальные визуализации, показывая не количественные показатели, а именно распределение категориальных данных.
График \ Пример кода
Вывод
В ходе финального проекта был проведён комплексный анализ потребления кофе с использованием двух независимых наборов данных, что позволило рассмотреть поведение потребителей как с точки зрения фактических продаж, так и с точки зрения вкусовых предпочтений и пользовательских оценок.
Анализ почасовых и сезонных данных показал устойчивую обратную корреляцию между температурой воздуха и объёмами продаж кофе: при понижении температуры спрос на горячие напитки возрастает, тогда как в тёплые и жаркие периоды наблюдается его снижение. Наиболее выраженные пики продаж приходятся на утренние часы, что подтверждает роль кофе как функционального напитка, связанного с началом рабочего дня и повседневными ритуалами.
Распределение продаж демонстрирует относительную стабильность спроса с отдельными аномальными всплесками, которые, как правило, совпадают с будними днями и утренними временными интервалами. Это указывает на предсказуемость потребления кофе и даёт практическую основу для оптимизации закупок, планирования персонала и управления нагрузкой.
Анализ второго датасета показал, что классические кофейные напитки (латте, капучино, американо) остаются лидерами по количеству оценок и отзывов, что свидетельствует о высоком уровне доверия и массовой популярности. При этом было выявлено, что сложность состава напитка не является ключевым фактором высокой оценки: корреляция между количеством ингредиентов и рейтингом носит слабый характер.
Отдельного внимания заслуживают напитки с редкими и экзотическими ингредиентами. Несмотря на низкую популярность в массовом сегменте, они часто получают высокие пользовательские рейтинги, что указывает на существование нишевой, но лояльной аудитории, ориентированной на уникальный вкус и экспериментальные сочетания. Это подчёркивает потенциал развития авторских и сезонных позиций в кофейных меню.
В целом, исследование подтверждает, что потребление кофе формируется под влиянием климатических условий, времени суток и привычек потребителей, при этом вкусовые предпочтения разделяются на массовый и нишевый сегменты. Полученные результаты могут быть использованы при формировании ассортимента, разработке сезонных предложений и принятии маркетинговых решений в кофейной индустрии.