
Вводная часть
Я нашла и использовала таблицу с платформы Kaggle. Таблица содержит данные о самых популярных артистах. Я приняла решение использовать данную таблицу, так как мне стало интересно проанализировать данные содержащиеся в ней. А именно хочу предоставить ценную информацию о тенденциях в музыкальной индустрии, популярности исполнителей, стилей их творчества.
Для визуализации данных я использую несколько видов графиков: - Гистограмму возрастного распределения артистов - Столбчатую диаграмму популярных стран (где больше всего известных исполнителей) - Круговую диаграмму по полу - График зависимости числа подписчиков от популярности - Box plot (ящик с усами) распределение популярности исполнителей по полу - Линейный график популярности 10 самых популярных артистов
Я выбрала гистограмму для возрастного распределения, потому что она наглядно показывает, какие возрастные группы преобладают среди исполнителей, позволяя выявить тренды в индустрии. Столбчатая диаграмма популярности стран была выбрана мной, так как она четко демонстрирует, какие страны выпускают больше всего известных артистов, позволяя сравнить их между собой. Круговая диаграмма по полу помогает легко оценить гендерное соотношение среди исполнителей. Ящик с усами (box plot) позволяет проанализировать разброс популярности в зависимости от пола, выявляя различия и возможные дисбалансы. Диаграмма рассеяния зависимости популярности от числа подписчиков помогает понять, насколько эти показатели коррелируют между собой и влияет ли количество подписчиков на успех артиста.
Этапы работы
Свою работу я начала с загрузки файла Artists.csv в GoggleColab, который содержит информацию о различных музыкальных исполнителях. Файл включает такие данные, как имя артиста, идентификатор, пол, возраст, страна, жанры, популярность, количество подписчиков и URI на Spotify.
from google.colab import files uploaded = files.upload ()
Так как пропущенные данные могут мешать анализу, я проверила, есть ли пустые значения: - df.isnull ().sum () показывает количество пропущенных значений в каждом столбце. - df.dropna (inplace=True) удаляет строки с пустыми ячейками. - Вторая проверка df.isnull ().sum () подтверждает, что данных больше нет.
В своем анализе данных я использовала ChatGPT для оптимизации кода при создании графиков, а именно для стилизации их в розово-голубой цветовой гамме. С его помощью я добавила корректные параметры цветовой палитры, фон, стилистику шрифтов и настроила визуальное восприятие графиков. Промты: 1.«Как сделать столбцы диаграммы в розово-голубых оттенках?» 2.«Как изменить цвета сегментов круговой диаграммы на розовый, голубой и темно-розовый?» 3.«Как изменить фон графика на голубой, а элементы сделать розовыми?» 4.«Как задать нестандартный цвет фона, например, светло-голубой?» 5.«Как изменить шрифт графика на Arial и сделать его более читаемым?» 6.«Как настроить подписи осей и заголовок в розовом цвете с жирным шрифтом?»
Я выбрала розово-голубую цветовую гамму для всех визуализаций, так как она хорошо контрастирует и делает графики более читаемыми. В качестве шрифта был использован sans-serif для лучшей совместимости с Google Colab. Голубой фон я добавила к некоторым графикам для лучшего визуального восприятия. Источниками вдохновения были для меня: Spotify и Last.fm, от туда я взяла визуальный стиль.
Иногда в таблице встречаются повторяющиеся строки, их нужно удалить. Для этого я использовала: df.duplicated ().sum () показывает, сколько дубликатов есть в таблице. df.drop_duplicates (inplace=True) удаляет их. Вторая проверка подтверждают, что дубликатов больше нет.
Итоговые графики
Возрастной диапазон артистов
Гистограмма «Возрастное распределение артистов»
Из гистограммы видно, что возраст артистов варьируется от молодых исполнителей (~20 лет) до более зрелых музыкантов (40+ лет). Однако большинство популярных исполнителей находятся в возрасте от 20 до 35 лет. Это говорит о том, что музыкальная индустрия ориентирована преимущественно на молодых артистов.
Есть ли артисты моложе 20 лет? На гистограмме есть данные об исполнителях младше 20 лет, это может свидетельствовать о растущей популярности молодых звезд. Однако таких артистов обычно немного, поскольку: 1. Для достижения успеха требуется время на развитие карьеры. 2. Юным исполнителям сложнее завоевать популярность без значительной поддержки индустрии.
На графике наблюдается явный пик в районе 25-30 лет, это означает, что большинство известных исполнителей добиваются популярности именно в этом возрасте. Это может быть связано с тем, что: 1. В молодом возрасте артисты имеют больше возможностей для продвижения. 2. Современные тренды в музыке часто ориентированы на молодежную аудиторию. 3. Лейблы и продюсеры активно продвигают новых артистов в возрасте от 18 до 20 лет.
На графике видно, что после 35-40 лет количество исполнителей заметно снижается, это может означать: 1. Высокая конкуренция в индустрии, из-за которой многие исполнители со временем теряют популярность. 2. Снижение активности артистов: они могут переключиться на продюсерскую деятельность или реже выпускать музыку. 3. Смену предпочтений слушателей в пользу молодых исполнителей.
Как этот график помогает в анализе индустрии?
1. Позволяет определить в каком возрасте артисты наиболее успешны. 2. Помогает увидеть, насколько индустрия поддерживает исполнителей разных возрастов. 3. Показывает, когда наступает пик популярности артистов и в каком возрасте их становится меньше.
Общий вид распределения График «ящик с усами» показывает, как распределена популярность исполнителей в зависимости от пола. Видны медиана (черная линия в ящике), основной диапазон значений (ящик) и выбросы (отдельные точки).
Анализ популярности по полу
График «Ящик с усами» (Box Plot)
Анализ графика «ящик с усами» (Box Plot) популярности исполнителей по полу. Рассмотрим распределение популярности среди разных полов исполнителей. - Средний уровень популярности примерно одинаков у всех (около 48–49 по медиане), но «mixed» выделяется (60.2 по медиане). - Женщины имеют максимальный рейтинг 100, что принадлежит Taylor Swift. - Мужчины достигают максимума 95 (Drake и Bad Bunny). - Группы (mixed) имеют чуть более высокую медиану (50), но ниже максимальный рейтинг (86). - Категория «mixed» представлена всего 6 артистами, но их средний рейтинг выше.
Популярность мужчин и женщин — Медиана популярности у мужчин и женщин примерно на одном уровне. Это означает, что средний уровень популярности схож. — Разброс популярности у мужчин больше: есть как менее популярные, так и суперпопулярные артисты. — У женщин диапазон популярности меньше, но менее выражены низкие значения.
Выбросы — У мужчин больше выбросов, что говорит о наличии как очень популярных, так и менее известных артистов. — У женщин выбросов меньше, что может свидетельствовать о более равномерном распределении популярности.
Итог - В целом популярность мужчин и женщин в музыке примерно одинакова, но у мужчин наблюдается более широкий разброс значений. - Среди мужчин встречаются как очень популярные исполнители, так и менее известные, тогда как у женщин популярность более равномерна. - Важно учитывать, что данные могут зависеть от выборки и жанровых предпочтений.
Анализ стран с наибольшим количеством исполнителей
График наглядно демонстрирует распределение артистов по странам и помогает понять, какие регионы наиболее активно представлены в мировой музыкальной индустрии.
Столбчатый график
График представляет собой столбчатую диаграмму где: - Ось X — страны (например, США, Канада, Великобритания и т. д.). - Ось Y — количество исполнителей из каждой страны.
Данный код группирует данные по столбцу Country и подсчитывает количество артистов для каждой страны. Затем он выбирает топ-10 стран с наибольшим количеством исполнителей: country_counts = df['Country'].value_counts ().head (10)
Топ-4 стран по количеству исполнителей 1. США (US): — Исходя от таблицы, США лидируют по количеству артистов. Это связано с тем, что США являются крупнейшим рынком музыки в мире и многие популярные исполнители, такие как Drake, Post Malone, Ariana Grande, Travis Scott и другие, представлены в таблице. — Следовательно на линейном графике США будут иметь самый высокий столбец. 2. Канада (CA): — Канада также представлена значительным количеством артистов, таких как Justin Bieber и The Weeknd. Это связано с развитой музыкальной индустрией страны и близостью к США. — Следовательно на графике Канада будет на втором месте. 3. Великобритания (GB): — Великобритания — родина таких артистов, как Ed Sheeran, Dua Lipa, Sam Smith. Страна имеет богатую музыкальную историю и активно экспортирует своих исполнителей на мировой рынок. — На графике Великобритания будет в топ-3. 4. Пуэрто-Рико (PR): — Пуэрто-Рико представлено такими артистами, как Bad Bunny, Ozuna, Daddy Yankee. Это связано с популярностью жанров реггетон и латинской музыки, которые активно развиваются в этой стране. — На графике Пуэрто-Рико будет в топ-4.
Так же в топ-10 могут войти такие страны, как Франция (FR), Германия (DE), Швеция (SE), Австралия (AU) и Мексика (MX). Эти страны имеют развитую музыкальную индустрию и представлены в таблице артистами, такими как David Guetta (FR), Zedd (DE), Tove Lo (SE), Sia (AU) и Luis Miguel (MX).
Лидеры по количеству исполнителей Если на графике видно, что США и Великобритания занимают первые места, это подтверждает тот факт, что именно эти страны являются основными центрами музыкальной индустрии. Это связано с несколькими факторами: Музыкальные лейблы — крупнейшие звукозаписывающие компании (Universal Music Group, Sony Music, Warner Music) базируются в США и Великобритании. Развитая индустрия — именно в этих странах чаще всего проводятся музыкальные премии (Grammy, BRIT Awards). Английский язык — мировая музыка в основном ориентирована на англоязычную аудиторию. Если в топе также присутствуют Канада, Германия, Франция, это говорит о сильной музыкальной культуре в этих странах.
Доминирование англоязычных стран
На графике видно, что большинство популярных артистов родом из англоязычных стран (США, Великобритании, Канады, Австралии), это свидетельствует о том что: 1. Музыка на английском языке имеет глобальное влияние. 2. Артисты из других стран могут быть менее известны на международной арене, даже если они популярны у себя на родине.
Присутствие неанглоязычных стран
На графике есть страны, где английский не является основным языком (например, Южная Корея, Германия, Франция), это говорит о следующем: 1. В последние годы азиатская музыка (K-pop, J-pop) набирает популярность за пределами своих стран. 2. Латиноамериканская музыка (реггетон, латинская поп-музыка) также выходит на мировой уровень. 3. В качестве примера можно привести Южную Корею, которая благодаря K-pop (BTS, BLACKPINK) стала мировым музыкальным центром.
Как этот график помогает в анализе индустрии?
1. Оказывает, какие страны доминируют в мировой музыкальной индустрии. 2. Позволяет увидеть глобальные тренды в популярности исполнителей. 3. Помогает определить, какие регионы развиваются в музыкальном плане.
Отсутствие некоторых стран
Есть страны не попали в топ-10, это может означать, что: 1. Их музыкальная индустрия больше ориентирована на внутренний рынок. 2. Местные исполнители не так часто выходят на международную арену.
Гендерный баланс или дисбаланс
Круговая диаграмма
В моем наборе данных есть столбец «Пол», который содержит информацию о поле музыкальных исполнителей. Я построила круговую диаграмму, что бы визуализировать гендерное распределение среди артистов.
На графике: 1. Каждый сектор круга представляет определенный пол (например, мужчины, женщины, небинарные артисты). 2. Размер сектора показывает процентное соотношение исполнителей каждого пола. 3. Цвета выбраны в розово-голубой гамме с добавлением темно-розового (если есть третий вариант).
Преобладание мужчин в индустрии
Если мужчины составляют более 60-70% всех артистов, это указывает на то, что: 1. Музыкальная индустрия исторически была ориентирована на продвижение мужских исполнителей. 2. Женщинам сложнее пробиться в индустрии из-за социальных факторов и маркетинговых стратегий лейблов. 3. Некоторые жанры (например, рэп, рок) традиционно доминируются мужчинами.
Растущая доля женщин
На диаграмме видно, что женщин в индустрии становится больше (например, 40-50%), это говорит о позитивных изменениях: 1. Растёт популярность женских поп и R& B исполнителей. 2. Женщины начинают занимать ведущие позиции не только как певицы, но и как продюсеры и композиторы.
Анализ популярности
Как этот график помогает в анализе индустрии?
1. Позволяет увидеть гендерный баланс среди популярных артистов. 2. Помогает выявить, насколько индустрия инклюзивна по отношению к разным группам исполнителей. 3. Показывает общие тенденции в музыкальном мире, связанные с репрезентацией полов.
Какие тенденции можно выявить?
Перед построением графика я рассмотрела данные: 1. Минимальное количество подписчиков: около 1 000. 2 Максимальное количество подписчиков: более 100 миллионов. 3. Среднее число подписчиков: около 5-10 миллионов. 4. Минимальный уровень популярности: 0 (наименее популярные артисты). 5. Максимальный уровень популярности: 100 (самые популярные исполнители в мире). 6. Средний уровень популярности: около 50-60.
В большинстве случаев наблюдается положительная корреляция: 1. Артисты с большим количеством подписчиков (10-50 млн) чаще всего имеют высокую популярность (70-100). 2. Те у кого мало подписчиков (< 1 млн), имеют низкую популярность (< 40-50). Однако встречаются исключения: 1. Есть исполнители с большим количеством подписчиков (30-40 млн), но популярностью < 50. 2. Это может означать, что они были популярны в прошлом, но сейчас их музыка не так востребована.
Есть ли артисты с высокой популярностью, но низким числом подписчиков?
Некоторые исполнители имеют популярность 80+, но при этом меньше 5 млн подписчиков.
Возможные причины: 1. Они вирусные новички (например, популярны в TikTok, но их фан-база еще не сформировалась). 2. Они получили мгновенный всплеск популярности, но еще не успели набрать подписчиков. Пример: если артист резко стал популярным благодаря тренду, его песни могут набирать миллионы прослушиваний, но у него пока мало постоянных подписчиков.
Кто самые популярные артисты?
В правом верхнем углу графика находятся самые популярные исполнители с более чем 100 миллионами подписчиков и популярностью 90-100. Это глобальные суперзвёзды вроде Тейлор Свифт, Дрейка, BTS или Билли Айлиш.
Есть ли выбросы (аномалии)?
Некоторые артисты с 50-100 миллионами подписчиков имеют популярность < 50. Это может указывать на ветеранов индустрии, которые были популярны раньше, но сейчас выпускают меньше хитов. Например, классические рок-исполнители или поп-звёзды 90-х. Некоторые исполнители с популярностью > 80, но всего 1-2 млн подписчиков. Возможно, они только начали карьеру и у них пока нет широкой фан-базы.
Средняя популярность артистов — 50-60, среднее число подписчиков 5-10 млн.
Чем больше подписчиков, тем выше популярность, но есть исключения.
Выбросы:
Исполнители с 40+ млн подписчиков, но популярностью < 50 (ветераны индустрии).
Исполнители с популярностью 80+, но < 5 млн подписчиков (вирусные артисты).
Суперзвёзды (100+ млн подписчиков, популярность 90-100) — лидеры индустрии.
Как этот график помогает в анализе индустрии?
Определяет закономерности: популярные артисты, как правило, имеют большое количество подписчиков.
Выявляет аномалии: исполнители с высокой популярностью, но небольшим количеством подписчиков могут быть новыми популярными артистами.
Позволяет прогнозировать успех: если у артиста уже много подписчиков, но пока низкая популярность, она может вскоре вырасти.
Общий вывод
Проведенный анализ позволил выявить ключевые закономерности в музыкальной индустрии: 1.Возрастной пик исполнителей чаще всего находится в диапазоне 20-30 лет. 2. Наибольшее число исполнителей сосредоточено в нескольких ведущих странах, таких как США и Великобритания. 3. Гендерное распределение может быть неравномерным, что требует дополнительного анализа. 4. Число подписчиков не всегда является главным фактором популярности. 5. Разброс популярности среди полов может свидетельствовать о существующих различиях в индустрии. 6. Дальнейшие исследования могут включать более детальный анализ жанров, коллабораций между артистами и их влияние на популярность.
Блокнот и датасет