https://ourworldindata.org/grapher/life-expectancy
Это открытый и свободно доступный датасет, поддерживаемый организацией Our World inData - лидирующей платформой для глобальных исследований.
Концепция
Взаимосвязь между экономическим развитием и состоянием здравоохранения в разных странах, выявляя закономерности, сходства и различия. Датасет позволяет изучать факторы, влияющие на долголетие и глобальное развитие здравоохранения.
Мне было интересно изучить разницу между развивающимися странами, странами первого и третьего мира.
Для анализа данных были выбраны тепловая карта (легко считывать низкие и высокие показатели), линейный график (удобен для изображения прогресса или регресса в течение времени), CAGR + Box Plot (комбинированные данные), точечная диаграмма с указанием тренда (для отдельных данных).
Также данные были проанализированы методами Shapiro-Wilk (нормальность распределения данных), корреляция Пирсона (определение влияния предиктора (времени)).
Датасет содержит информацию об ожидаемой продолжительности жизни при рождении для 15 крупных стран мира, охватывая период с 1980 по 2020 года с интервалом в 10 лет.
15 стран: Афганистан, Албания, Алжир, Австралия, Бразилия, Канада, Китай, Франция, Германия, Индия, Япония, Нигерия, Россия, Южная Африка, США 5 временных периодов: 1980, 1990, 2000, 2010, 2020 Всего 75 записей: 15 стран × 5 периодов Основной показатель: Ожидаемая продолжительность жизни в годах
Этапы работы
Для начала работы я импортировала все необходимые библиотеки.
Данные на сайте не были в табличной форме, поэтому я вручную перевела их в табличный вид.
Созданы два формата CSV файлов: - Long Format (75 строк × 3 столбца): Оптимален для анализа временных рядов и статистических тестов - Wide Format (15 строк × 5 столбцов): Удобен для сравнения стран и корреляционного анализа
Применены основные методы анализа:
Описательная статистика: mean = 68.75 лет, std = 11.39, диапазон 37.5–83.5 лет
Группировка и агрегация: По годам, странам, категориям развития
Pivot таблицы: Для корреляционного анализа (0.94+ консистентность)
Временной анализ: Тренды по декадам, CAGR для каждой страны.
С написанием кода для более сложных вычислений помогал Perplexity
В начале работы я в общем проанализировала имеющиеся данные с помощью статистических методов и быстрой визуализации (для наглядности).
Графики стилизованы под хитмапы, это помогает в быстрой считываемости данных.
Принципы визуализации данных
Явное включение статистики: Формулы, корреляции, p-values на графиках
Информативное цветовое кодирование: Зелёный (развитые), жёлтый (средний), красный (развивающиеся)
Аннотации исторических событий (ВИЧ, войны)
Главные результаты выделены, детали доступны
Только необходимые элементы (Tufte principle)
Страны организованы по типам развития
Визуализация данных
С написанием кода для финальной визуализации данных помогал Perplexity: промпт включал в себя способ организации данных и стилистику.
Тепловая карта: 15 стран × 5 лет, цветовой градиент Red-Yellow-Green (30-85 лет)
Комплексный анализ мировой ожидаемой продолжительности жизни (1980-2020): Интерактивная инфографика с хитмапом, распределением, трендами роста и квартильным анализом.
Япония лидирует с показателем 83.5 года, развивающиеся страны демонстрируют наибольший прогресс.
Траектории каждой страны (1980 vs 2020), цветовая кодировка по развитию
Наклонный график эволюции ожидаемой продолжительности жизни: Изменение с 1980 по 2020 для всех стран.
Все страны показывают рост ожидаемой продолжительности жизни.
CAGR и распределение
Статистический анализ: CAGR и распределение продолжительности жизни во времени.
Медиана выросла на 9 лет, но вариация данных снизилась более чем на 40.
Регрессионный анализ конвергенции
Регрессионный анализ: Связь между исходным уровнем развития (1980) и темпом роста (1980-2020).
Более низкие показатели вначале склонны к более высоким уровням роста в дальнейшем.
Изучающий и объясняющий формат визуализации данных для выбранной темы
тут будет табличка
Полученные данные интересны раскрытием глобальных закономерностей развития здравоохранения за 40 лет (1980-2020) на примере 15 контрастных стран.
Тепловая карта мгновенно показала бимодальность (две группы стран) — то, что Shapiro-Wilk выявил статистически (p=0.000006).
Наклонный график визуально подтвердил конвергенцию: крутые зеленые линии снизу (Афганистан), пологие сверху (Япония).
CAGR + Box Plot одним взглядом показал: 1) темпы роста (Афганистан лидер), 2) сужение разброса (std стабилизировалось).
Регрессионный анализ четко продемонстрировал отрицательную корреляцию (r=-0.65): низкий старт → высокий процентный рост.
Визуализация превратила «сухие числа» в историю глобального здравоохранения с практическими выводами.
Статистические методы
Анализ данных о продолжительности жизни включал 7 ключевых статистических методов, примененных с помощью Pandas и SciPy.
Описательная статистика Назначение: Суммаризация характеристик датасета (75 наблюдений). Методы: mean (68.75 лет), std (11.39), min/max (37.5/83.5), квартили (Q1=62.75, Q2=73.0, Q3=77.0). Результат: Выявлен широкий разброс (46 лет) и бимодальное распределение.
Shapiro-Wilk тест (нормальность) Формула: Гипотезы: H₀ — нормальное распределение, H₁ — нет. Результат: p-value = 0.000006 < 0.05 → данные НЕ нормальны (две группы стран).
Линейная регрессия (глобальный тренд) Применение: Зависимость продолжительности жизни от времени (десятилетия). Результат: время объясняет 4,84% вариации.
Однофакторный ANOVA Гипотезы: H₀ — все страны имеют одинаковую среднюю, H₁ — различаются. Результат: F = 57.72, p = 1,98×10⁻²⁹ → различия статистически значимы.
Парный t-тест (развитые vs развивающиеся) Группы: Развитые (78.00±2.74, n=30) vs развивающиеся (58.70±11.70, n=25). Результат: t = 8.77, p < 0.05 → разница 19.3 года значима.
Корреляция Пирсона Применение: Связь между годом и продолжительностью (r = 0.22, слабая). Дополнительно: Корреляция между годами > 0.94 (консистентность ранжирования).
CAGR (среднегодовой темп роста) Применение: Для каждой страны за 4 периода (1980-2020). Результат: Топ — Афганистан (5.525%), низ — Южная Африка (-1.077%).
Индивидуальная регрессия (по странам) Применение: Линейная регрессия для каждой из 15 стран отдельно. Результат: Коэффициенты корреляции 0.97-0.999, все тренды положительные кроме ЮАР.
Выводы из данных
Парадокс конвергенции: Развивающиеся страны растут быстрее в процентах (Афганистан +24%), но абсолютный разрыв остается (~20 лет)
Статистическая значимость: Все различия p < 0.001, разница между группами 19.3 года (t = 8.77)
Биологический потолок: Развитые страны приблизились к максимуму (~85 лет), дальнейший рост затруднен
Консистентность: Корреляция между годами > 0.94 — топ-страны остаются топом
Экзогенные потрясения: Южная Африка (-4.24%) — единственная с отрицательным CAGR из-за ВИЧ/СПИДа
Код
Ссылка на файл с кодом: https://drive.google.com/drive/folders/1t-vI45SLGsu6lDCafpdupXocGuCELeKY?usp=sharing