Original size 0x0

Ожидаемая продолжительность жизни. Анализ опыта 15 стран

PROTECT STATUS: not protected

https://ourworldindata.org/grapher/life-expectancy

Это открытый и свободно доступный датасет, поддерживаемый организацией Our World inData - лидирующей платформой для глобальных исследований.

Концепция

Взаимосвязь между экономическим развитием и состоянием здравоохранения в разных странах, выявляя закономерности, сходства и различия. Датасет позволяет изучать факторы, влияющие на долголетие и глобальное развитие здравоохранения.

Мне было интересно изучить разницу между развивающимися странами, странами первого и третьего мира.

Для анализа данных были выбраны тепловая карта (легко считывать низкие и высокие показатели), линейный график (удобен для изображения прогресса или регресса в течение времени), CAGR + Box Plot (комбинированные данные), точечная диаграмма с указанием тренда (для отдельных данных).

Также данные были проанализированы методами Shapiro-Wilk (нормальность распределения данных), корреляция Пирсона (определение влияния предиктора (времени)).

Датасет содержит информацию об ожидаемой продолжительности жизни при рождении для 15 крупных стран мира, охватывая период с 1980 по 2020 года с интервалом в 10 лет.

15 стран: Афганистан, Албания, Алжир, Австралия, Бразилия, Канада, Китай, Франция, Германия, Индия, Япония, Нигерия, Россия, Южная Африка, США 5 временных периодов: 1980, 1990, 2000, 2010, 2020 Всего 75 записей: 15 стран × 5 периодов Основной показатель: Ожидаемая продолжительность жизни в годах

Этапы работы

Для начала работы я импортировала все необходимые библиотеки.

Данные на сайте не были в табличной форме, поэтому я вручную перевела их в табличный вид.

Созданы два формата CSV файлов: - Long Format (75 строк × 3 столбца): Оптимален для анализа временных рядов и статистических тестов - Wide Format (15 строк × 5 столбцов): Удобен для сравнения стран и корреляционного анализа

Применены основные методы анализа:

Описательная статистика: mean = 68.75 лет, std = 11.39, диапазон 37.5–83.5 лет

Группировка и агрегация: По годам, странам, категориям развития

Pivot таблицы: Для корреляционного анализа (0.94+ консистентность)

Временной анализ: Тренды по декадам, CAGR для каждой страны.

С написанием кода для более сложных вычислений помогал Perplexity

0

В начале работы я в общем проанализировала имеющиеся данные с помощью статистических методов и быстрой визуализации (для наглядности).

Original size 1024x669

Графики стилизованы под хитмапы, это помогает в быстрой считываемости данных.

Принципы визуализации данных

Явное включение статистики: Формулы, корреляции, p-values на графиках

Информативное цветовое кодирование: Зелёный (развитые), жёлтый (средний), красный (развивающиеся)

Аннотации исторических событий (ВИЧ, войны)

Главные результаты выделены, детали доступны

Только необходимые элементы (Tufte principle)

Страны организованы по типам развития

Визуализация данных

С написанием кода для финальной визуализации данных помогал Perplexity: промпт включал в себя способ организации данных и стилистику.

Original size 2400x1600

Тепловая карта: 15 стран × 5 лет, цветовой градиент Red-Yellow-Green (30-85 лет)

Комплексный анализ мировой ожидаемой продолжительности жизни (1980-2020): Интерактивная инфографика с хитмапом, распределением, трендами роста и квартильным анализом.

Япония лидирует с показателем 83.5 года, развивающиеся страны демонстрируют наибольший прогресс.

Original size 2400x1600

Траектории каждой страны (1980 vs 2020), цветовая кодировка по развитию

Наклонный график эволюции ожидаемой продолжительности жизни: Изменение с 1980 по 2020 для всех стран.

Все страны показывают рост ожидаемой продолжительности жизни.

Original size 2400x1600

CAGR и распределение

Статистический анализ: CAGR и распределение продолжительности жизни во времени.

Медиана выросла на 9 лет, но вариация данных снизилась более чем на 40.

Original size 2400x1600

Регрессионный анализ конвергенции

Регрессионный анализ: Связь между исходным уровнем развития (1980) и темпом роста (1980-2020).

Более низкие показатели вначале склонны к более высоким уровням роста в дальнейшем.

Изучающий и объясняющий формат визуализации данных для выбранной темы

тут будет табличка

Полученные данные интересны раскрытием глобальных закономерностей развития здравоохранения за 40 лет (1980-2020) на примере 15 контрастных стран.

0

Тепловая карта мгновенно показала бимодальность (две группы стран) — то, что Shapiro-Wilk выявил статистически (p=0.000006).

Наклонный график визуально подтвердил конвергенцию: крутые зеленые линии снизу (Афганистан), пологие сверху (Япония).

CAGR + Box Plot одним взглядом показал: 1) темпы роста (Афганистан лидер), 2) сужение разброса (std стабилизировалось).

Регрессионный анализ четко продемонстрировал отрицательную корреляцию (r=-0.65): низкий старт → высокий процентный рост.

Визуализация превратила «сухие числа» в историю глобального здравоохранения с практическими выводами.

Статистические методы

Анализ данных о продолжительности жизни включал 7 ключевых статистических методов, примененных с помощью Pandas и SciPy.

Описательная статистика Назначение: Суммаризация характеристик датасета (75 наблюдений). Методы: mean (68.75 лет), std (11.39), min/max (37.5/83.5), квартили (Q1=62.75, Q2=73.0, Q3=77.0). Результат: Выявлен широкий разброс (46 лет) и бимодальное распределение.

Shapiro-Wilk тест (нормальность) Формула: Гипотезы: H₀ — нормальное распределение, H₁ — нет. Результат: p-value = 0.000006 < 0.05 → данные НЕ нормальны (две группы стран).

Линейная регрессия (глобальный тренд) Применение: Зависимость продолжительности жизни от времени (десятилетия). Результат: время объясняет 4,84% вариации.

Однофакторный ANOVA Гипотезы: H₀ — все страны имеют одинаковую среднюю, H₁ — различаются. Результат: F = 57.72, p = 1,98×10⁻²⁹ → различия статистически значимы.

Парный t-тест (развитые vs развивающиеся) Группы: Развитые (78.00±2.74, n=30) vs развивающиеся (58.70±11.70, n=25). Результат: t = 8.77, p < 0.05 → разница 19.3 года значима.

Корреляция Пирсона Применение: Связь между годом и продолжительностью (r = 0.22, слабая). Дополнительно: Корреляция между годами > 0.94 (консистентность ранжирования).

CAGR (среднегодовой темп роста) Применение: Для каждой страны за 4 периода (1980-2020). Результат: Топ — Афганистан (5.525%), низ — Южная Африка (-1.077%).

Индивидуальная регрессия (по странам) Применение: Линейная регрессия для каждой из 15 стран отдельно. Результат: Коэффициенты корреляции 0.97-0.999, все тренды положительные кроме ЮАР.

Выводы из данных

Парадокс конвергенции: Развивающиеся страны растут быстрее в процентах (Афганистан +24%), но абсолютный разрыв остается (~20 лет)

Статистическая значимость: Все различия p < 0.001, разница между группами 19.3 года (t = 8.77)

Биологический потолок: Развитые страны приблизились к максимуму (~85 лет), дальнейший рост затруднен

Консистентность: Корреляция между годами > 0.94 — топ-страны остаются топом

Экзогенные потрясения: Южная Африка (-4.24%) — единственная с отрицательным CAGR из-за ВИЧ/СПИДа

Код

We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more