Original size 1140x1600

Цифровой портрет игрока: анализ пользовательских паттернов в Steam

PROTECT STATUS: not protected

Выбор данных и источник

Для данного исследования я выбрал датасет «steam200k», содержащий информацию о поведении пользователей платформы Steam. Данный набор данных представляет собой выборку из 200 000 записей о взаимодействиях пользователей с играми, включая такие действия как покупка игр и время, проведённое в них.

Данный датасет я обнаружил на платформе Kaggle, где он предоставлен в категории данных для анализа пользовательского поведения. датасет содержит следующие колонки:

 — ID пользователя  — Название игры  — Тип взаимодействия (покупка/игра)  — Количество часов (для записей типа «игра»)  — Временная метка последней активности

Почему эти данные представляют интерес?

Платформа Steam на сегодняшний день является крупнейшим цифровым дистрибьютором видеоигр на ПК, с аудиторией 120 миллионов активных пользователей.

Анализ поведения пользователей Steam позволяет нам заглянуть в экосистему современной игровой индустрии и понять:

  1. Какие игры привлекают наибольшее количество игроков.
  2. Как соотносятся количество покупок и реальное использование игр.
  3. Какие игры наиболее затягивающие (по среднему времени, проведённому в игре).
  4. Существует ли корреляция между популярностью игр и её способностью удерживать игрока.

Выбор типов визуализации

Для анализа данных я выбрал следующие типы визуализаций:

 — Столбчатые диаграммы для отображения количественных показателей по играм.  — Гистограмма для анализа распределения времени, проведённого в играх.  — Круговая диаграмма для представления соотношения типов активности.  — Точечная диаграмма для анализа корреляций между метриками.  — Сгруппированная столбчатая диаграмма для сравнения метрик между играми.

Эти типы визуализаций наиболее эффективно представляют закономерности в данных и позволяют выявить интересные паттерны поведения пользователей.

Обработка данных

Процесс анализа данных состоял из следующих этапов:

  1. Загрузка и подготовка данных.  — Импорт Датасета с с возможностью загрузки файла пользователем через интерфейс Google Colab.  — Присвоение осмысленных имён столбцам для дальнейшего анализа.  — Первичный анализ структуры данных (проверка размерности, типов данных, пропущенных значений).

  2. Анализ популярности игр.  — Подсчёт количества уникальных пользователей для каждой игры.  — Выделение топ-10 игр по количеству игроков.  — Визуализация результатов в виде столбчатой диаграммы.

  3. Анализ времени, проведённого в играх.  — Фильтрация записей с типом взаимодействия «игра».  — Ограничение выборки до 500 часов для исключения выбросов.  — Построение гистограммы распределения времени.

  1. Анализ соотношения активности.  — Подсчёт количества записей каждого типа (покупка/игра).  — Визуализация в виде круговой диаграммы.
  2. Определение самых «затягивающих» игр.  — Расчёт среднего времени игры для каждого названия.  — Фильтрация игр с минимальным порогом игроков (50+) для статистической значимости.  — Визуализация топ-10 игр по среднему времени.
  3. Анализ корреляции между популярностью и вовлечённостью.  — Объединение данных о количестве игроков и среднем времени игры. — Визуализация взаимосвязи с помощью точечной диаграммы.
  4. Анализ конверсии из покупки в игр.  — Расчёт соотношения между количеством покупок и количеством игровых сессий.  — Вычисление процента конверсии для топ-10 популярных игр.  — Визуализация с помощью сгруппированной столбчатой диаграммы.

Использование нейросетей

В процессе разработки проекта я использовал языковую модель DeepSeek для решения следующих задач:

  1. Структурирование кода и оптимизация.  — Модель помогла структурировать код в соответствии с лучшими практиками анализа данных.  — Были оптимизированы запросы к датасету для более эффективной обработки.

  2. Разработка цветовой схемы.  — DeepSeek предложил использовать цветовую схему, вдохновлённую интерфейсом Steam.  — Были подобраны цвета, отражающие фирменный стиль платформы (тёмно-синий, голубой, оранжевый).

  3. Улучшение визуализаций.  — Модель помогла с настройкой параметров визуализации для лучшей читаемости.  — Были добавлены дополнительные элементы (подписи, сетка, цветовая кодировка)

  4. Интерпретация результатов.  — DeepSeek предложил интересные гипотезы о паттернах поведения пользователей на основе полученных визуализаций.  — Были выявлены неочевидные зависимости между метриками.

Стилизация визуализаций

Для создания единого визуального стиля я разработал следующую концепцию:

  1. Цветовая палитра:  — Основная палитра включает цвета, вдохновлённые интерфейсом Steam: темно-синий (#1b2838), голубой (#66c0f4), тёмно-бирюзовый (#2a475e), светло-серый (#c7d5e0) и оранжевый акценты (#ff9900).  — Для тепловых карт и градиентов создана специальная цветовая карта на основе этих цветов.

  2. Элементы визуализации:  — Прозрачность столбцов и маркеров (alpha=0.7-0.8) для лучшей читаемости.  — Контрастная обводка элементов для выделения.  — Пунктирная сетка с пониженной непрозрачностью.  — Числовые метки на ключевых элементах для точной интерпретации.

  3. Композиция:  — Единый размер графиков (преимущественно 12×8 дюймов).  — Выравнивание заголовков и подписей.  — Отступы для улучшения читаемости.  — Поворот подписей на оси Х для предотвращения наложения.

Результаты анализа

Топ-10 популярных игр на Steam по количеству игроков:

Диаграмма представляет десять наиболее популярных игр в датасете по количеству уникальных пользователей. лидерами являются такие игры как Dota 2, Counter-Strike: Global Offensive и Team Fortress 2, что согласуется с общими трендами популярности на платформе Steam. Особенно интересно, что топ-список возглавляют условно-бесплатные игры с соревновательным многопользовательским режимом.

Original size 1184x784

Распределение времени, проведённого игроками в играх:

Гистограмма демонстрирует характерное распределение с «длинным хвостом», где большинство игроков проводят в играх относительно небольшое количество часов (до 100), в то время как существует небольшая доля очень активных пользователей с сотнями часов игрового времени. это классическое распределение соответствует закону Парето (принцип 80/20), где небольшое количество пользователей генерирует значительную часть общего времени, проведённого в играх.

Original size 1030x729

Соотношение действий: покупка vs игра:

Круговая диаграмма показывает соотношение записей о покупке игр и фактическом игровом процессе. Интересно отметить, что количество записей об игре преобладает над количеством записей о покупке, что может свидетельствовать о высокой вовлеченности пользователей платформы — купив игру, пользователи действительно играют в неё и делают это неоднократно.

Original size 839x832

Топ-10 самых «затягивающих» игр:

На этой диаграмме представлены игры с наибольшим средним игровым временем на одного пользователя. Лидерами являются игры с открытым миром, ролевые игры и стратегии, требующие большого количества времени для освоения и прохождения. Особенно выделяются такие названия как Football Manager, Sid Meier`s civilization V и The Elder ScrollsV: Skyrim — игры, известные своей способностью удерживать внимание игроков в течение сотен часов.

Original size 1184x784

Взаимосвязь между популярностью игр и средним временем игры:

Точечная диаграмма демонстрирует корреляцию между количеством игроков и средним временем, проведённым в игре. Наблюдается интересная тенденция: не всегда самые популярные игры являются самыми затягивающими. Нишевые проекты с меньшей аудиторией часто имеют более высокое среднее время игры, что говорит о высокой лояльности их аудитории.

Original size 1118x784

Соотношение покупок и игр для топ-10 популярных игр:

Сгруппированная столбчатая диаграмма показывает количество записей о покупке и игре для топ-10 популярных игр, а также процент «конверсии» — соотношение между игровыми сессиями и покупками. Высокий процент конверсии указывает на то, что большинство пользователей, купивших игру, действительно начинают в неё играть. Особенно высокие показатели у условно-бесплатных игр, где барьер входа значительно ниже.

Original size 1384x784

Выводы

Проведённый анализ позволил выявить несколько интересных паттернов в поведении пользователей Steam:

  1. Доминирование условно-бесплатных игр с соревновательным элементом:  — Игры с моделью free-to-play привлекают наибольшее количество пользователей.  — Соревновательных элемент способствует долгосрочному вовлечению игроков.

  2. Разделение на «казуальную» и «хардкорную» аудитории:  — Большинство пользователей проводят в играх относительно небольшое количество времени.  — Существует небольшая группа очень активных игроков с сотнями и тысячами часов игрового времени.

  3. Различные ниши имеют разные метрики успеха:  — Популярные мультиплеерные игры привлекают больше игроков, но среднее время игры может быть ниже.  — Стратегии и ролевые игры удерживают меньшее количество игроков, но на более длительный срок.

  4. Высокая степень вовлечённости пользователей Steam:  — Большинство купленных игр действительно используются, а не остаются в библиотеке без внимания.  — Многие популярные игры демонстрируют «конверсию» из покупки в активное использование.

Блокнот и Датасет (https://goo.su/aATiQ)

Цифровой портрет игрока: анализ пользовательских паттернов в Steam
Project created at 10.04.2025
We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more