
Концепция
В этом проекте анализируются аудио-характеристики музыкальных треков из сервиса Spotify.
Цель исследования — понять, какими свойствами обладают популярные треки и как параметры звучания (энергия, танцевальность, темп, настроение) связаны между собой.
Spotify предоставляет количественные аудио-показатели, что делает данные удобными для анализа и визуализации. Такой датасет позволяет исследовать музыку как набор измеримых характеристик, а не только как культурный продукт.
Для анализа был выбран датасет Spotify Tracks Dataset найден на сайте Kaggle.
Описание данных:
Для анализа был выбран датасет Spotify Tracks Dataset, опубликованный на платформе Kaggle.
Датасет содержит информацию о музыкальных треках и их аудио-характеристиках, таких как танцевальность, энергия, темп, настроение и популярность.
Эти данные подходят для анализа, так как они имеют числовую форму и отражают особенности звучания музыки.
Датасет содержит 114000 треков и 21 параметр, описывающих аудио-характеристики, популярность и метаданные композиций.
В датасете представлены как метаданные треков, так и числовые аудио-характеристики. Для анализа были выбраны следующие параметры:
показатель популярности трека пригодность для танцев интенсивность и насыщенность звучания эмоциональная окраска темп композиции общая громкость степень акустичности наличие речевых элементов жанровая принадлежность
Очистка данных

На первом этапе очистки данных был удалён технический индексный столбец, не несущий аналитической ценности и появившийся в результате экспорта датасета.
На этапе проверки данных было выявлено минимальное количество пропущенных значений. Пропуски обнаружены только в отдельных текстовых полях (название трека, альбома и исполнитель), при этом все числовые аудио-характеристики и показатель популярности заполнены полностью.
Распределение популярности треков в Spotify
График показывает распределение популярности треков на платформе Spotify. Большинство композиций имеют низкий показатель популярности, в то время как лишь небольшая часть треков достигает высоких значений. Это отражает высокую конкуренцию среди музыкантов и ограниченное количество действительно массово популярных релизов.
Средняя популярность по жанрам
Диаграмма показывает среднюю популярность треков в различных жанрах. Некоторые жанры демонстрируют более высокие показатели популярности, что может быть связано с актуальными трендами, особенностями аудитории и алгоритмами рекомендаций платформы. При этом жанровое разнообразие остаётся важным фактором музыкальной экосистемы Spotify.
Связь энергии и танцевальности треков
Диаграмма рассеяния показывает взаимосвязь между показателями энергии и танцевальности треков. Наблюдается положительная тенденция: более энергичные композиции чаще обладают высокой танцевальностью. При этом зависимость не является строгой, что указывает на разнообразие музыкальных форматов.
Связь эмоциональной окраски и популярности треков
График демонстрирует связь между эмоциональной окраской треков и их популярностью. Чёткой зависимости между показателем valence и популярностью не наблюдается: как позитивные, так и более меланхоличные композиции могут быть популярными. Это указывает на то, что эмоциональный характер музыки не является определяющим фактором успеха трека.
Распределение темпа треков по жанрам
Boxplot-диаграмма показывает распределение темпа треков в разных жанрах. Можно заметить, что жанры отличаются характерным диапазоном темпа и степенью вариативности, что отражает их стилистические особенности. Некоторые жанры демонстрируют более стабильный темп, тогда как другие отличаются широким разбросом значений.
Корреляция аудио-характеристик треков
Корреляционная матрица демонстрирует взаимосвязи между основными аудио-характеристиками треков. Некоторые параметры, такие как energy и loudness, показывают выраженную положительную корреляцию, в то время как популярность слабо связана с большинством аудио-фичей. Это подтверждает, что успех трека определяется совокупностью факторов, а не одной характеристикой.
Основные выводы исследования
В ходе анализа аудио-характеристик треков Spotify были выявлены следующие закономерности:
• Большинство треков на платформе имеют низкий уровень популярности, что указывает на высокую конкуренцию между исполнителями. • Средняя популярность заметно различается между жанрами, что отражает особенности аудитории и музыкальных трендов. • Между показателями energy и danceability наблюдается положительная связь, однако она не является строгой. • Эмоциональная окраска трека (valence) слабо связана с его популярностью, что говорит о разнообразии успешных музыкальных форматов. • Корреляционный анализ показал, что популярность трека не определяется одной аудио-характеристикой, а формируется совокупностью факторов.
Использованные статистические методы
В рамках проекта были использованы следующие методы анализа данных:
• Описательная статистика — для изучения распределений и диапазонов значений параметров. • Группировка и агрегация данных — для анализа средней популярности по жанрам. • Корреляционный анализ (коэффициент Пирсона) — для оценки взаимосвязей между аудио-характеристиками. • Сравнение распределений — с использованием boxplot-диаграмм для выявления различий между жанрами. • Визуальный анализ данных — как основной способ интерпретации закономерностей.
Описание применения генеративной модели
В процессе работы над проектом использовалась генеративная языковая модель ChatGPT (OpenAI).
Модель применялась для: • помощи в структурировании этапов анализа данных; • подбора и объяснения кода на Python (Pandas, Matplotlib, Seaborn); • формулировки аналитических выводов и текстов для презентации.
Все аналитические решения, интерпретация графиков и финальные выводы были сформированы самостоятельно.
Материалы проекта
• Датасет: Spotify Tracks Dataset (Kaggle, MaharshiPandya) • Блокнот с кодом Google Colab • Визуализации: представлены в презентации