Original size 1140x1600

Анализ и визуализация Global Disaster Events 2022–2025

PROTECT STATUS: not protected

Блокнот Google Colab

В датасете 13 признаков: тип бедствия, страна и координаты, дата, уровень (1–10), пострадавшее население, экономический ущерб (USD), время реагирования, факт оказания помощи, индекс разрушения инфраструктуры (0–1), и бинарная метка major disaster.

Тема интересна тем, что в одном наборе можно связать «что произошло» (тип/география/время) с «последствиями» (ущерб/пострадавшие/разрушения) и «реакцией» (скорость ответа и помощь). Это удобно для обучающей визуализации: можно показать, как из сырых событий получаются выводы, и какие метрики лучше использовать (например, медиана вместо среднего при перекошенных распределениях).

График 1 — Динамика событий по годам

big
Original size 887x490

Цель: понять, как меняется количество событий в датасете по годам и есть ли заметные скачки.

Что сделано в коде:

Привели date к типу datetime и извлекли year.

Посчитали частоты событий по годам через groupby («year»).size () — это базовая агрегация (descriptive analysis).

Посчитали динамику:

yoy_abs = diff () — абсолютное изменение количества событий год к году.

yoy_pct = pct_change () — процентное изменение (YoY, year-over-year).

Как читать график

Высота столбца = сколько событий в датасете приходится на соответствующий год.

Число над столбцом = точное количество событий.

Процент внутри столбца = YoY: насколько год изменился относительно предыдущего.

Что видно по результату

В 2023–2025 объём событий держится на сопоставимом уровне (около 6–7 тысяч событий в год).

В 2025 видно снижение относительно 2024.

Почему 2022 год «аномальный» и даёт гигантский YoY

2022 в датасете — неполный год. По диапазону дат файл начинается в конце 2022 года (примерно с 08.12.2022) и заканчивается в конце 2025 года (примерно 07.12.2025).

В 2022 попадает только небольшой «хвост» декабря, то есть наблюдений физически мало.

Из-за этого переход 2022 → 2023 сравнивает частичный год с полным годом, поэтому YoY получается искусственно завышенным.

График 2 — Частота по типам

Original size 989x590

Горизонтальная столбчатая диаграмма сравнивает сколько событий каждого типа встречается в датасете за период 2023–2025. Каждый тип окрашен в отдельный цвет, чтобы категории считывались быстрее.

Как читать график

Длина полосы = количество событий данного типа. Цифра справа = точное значение (count). Цвет = тип бедствия (категориальная кодировка).

Что мы анализировали

Отфильтровали данные по дате: берём только события с 01.01.2023, чтобы исключить неполный 2022 год.

Построили частотное распределение по disaster_type (агрегация groupby/value_counts).

Посчитали суммарное количество событий и долю лидирующего типа.

Ключевой вывод по графику

Распределение по типам выглядит достаточно ровным: значения находятся примерно в диапазоне 2700–2860 событий на тип (за 2023–2025). Лидирующий тип — Землетрясения (около 14–15% всех событий периода). Это важная отправная точка: частота показывает «как часто происходит», но не отвечает на вопрос «насколько разрушительно» — дальше сравним типы по ущербу и severity.

График 3: «Частота vs медианный ущерб по типам происшествий»

Original size 1086x590

Данные и период

Используются события с 2023 года (2022 исключён, так как представлен неполным годом и искажает сравнения по частоте).

Что изображено

Каждая точка — один тип природного бедствия (7 типов). Ось X (Frequency) — количество событий данного типа за период (count). Ось Y (Typical Loss) — медианный экономический ущерб одного события данного типа (USD)

Используется логарифмическая шкала по Y, потому что ущерб имеет выбросы и широкий диапазон.

Как читать «крест»

Пунктирные линии — медианы по типам:

правее вертикальной линии = тип встречается чаще медианного уровня,

выше горизонтальной линии = типичный ущерб выше медианного уровня.

Интерпретация квадрантов

High freq / High loss: типы, которые одновременно распространённые и «дорогие» (приоритетные риски).

High freq / Low loss: частые, но обычно менее затратные.

Low freq / High loss: редкие, но потенциально очень затратные.

Low freq / Low loss: редкие и обычно менее затратные.

Почему медиана

Медиана устойчивее к экстремальным значениям, поэтому лучше отражает «типичную стоимость» события по типу.

График 4: «География событий: доли стран (2023–2025)»

Original size 587x590

Цель визуализации

Показать, в каких странах в датасете концентрируется наибольшее число событий (по частоте), и насколько распределение «сконцентрировано» в топе.

Что показано

Кольцевая диаграмма отображает доли событий по странам за период с 2023 года. Чтобы график был читаемым, мы оставляем топ-7 стран по числу событий, а остальные объединяем в категорию Other.

Почему так

Круговые диаграммы плохо читаются при большом числе категорий.

Описание применения генеративной модели

Использованный ИИ-инструмент OpenAI ChatGPT Модель: GPT-5.2 (reasoning)

Ссылка

Цель применения ИИ

Подготовить шаблоны кода на Pandas/Matplotlib и помочь с исправлением синтаксических ошибок при запуске в Google Colab.

Как именно использовался ИИ (по задачам)

Код и аналитика: генерация черновых ячеек кода для groupby, расчётов метрик (count, median, YoY); адаптация под требование «анализ только с 2023 года».

Отладка: диагностика ошибок исполнения (SyntaxError/неполный ввод) и предложение исправлений.

Методология: объяснение применяемых статистических приёмов (агрегации, медиана vs среднее, лог-шкала, сравнение групп, эффект «низкой базы»).

Роль автора

Выбор датасета и постановка финальных вопросов анализа.

Запуск кода в Colab, проверка результатов, выбор финальных визуализаций.

Интерпретация результатов и финальные формулировки выводов для презентации.

Контроль ограничений датасета (синтетические данные) и корректности сравнений по периодам.

We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more