
Исследование факторов выживания в ДТП
Вводная часть
Выбор данных и их источник
Выбор данных и их источник Для данного исследования я выбрал набор данных, содержащий информацию о дорожно-транспортных происшествиях. Файл accident.csv включает следующие параметры: - Возраст участника ДТП - Пол (мужской/женский) - Скорость при столкновении (км/ч) - Использование защитного шлема (да/нет) - Использование ремня безопасности (да/нет) - Исход происшествия (выживание/гибель)
Почему эти данные?
Изучение данных о ДТП представляет особую ценность для общества, поскольку помогает выявить ключевые факторы, влияющие на выживаемость, и может послужить основой для разработки более эффективных мер безопасности на дорогах. Меня заинтересовала возможность проанализировать, как различные факторы — возраст, пол, скорость и использование защитных средств — комплексно влияют на шансы выжить в аварии.
Выбранные типы визуализации
Для разностороннего анализа данных я выбрала 6 различных типов визуализации: Гистограмма с наложением — показывает распределение скорости при столкновении для выживших и погибших Столбчатая диаграмма — отображает процент выживаемости по возрастным группам Горизонтальная диаграмма — демонстрирует влияние использования защитных средств Тепловая карта — визуализирует выживаемость в зависимости от возраста и скорости Гистограммы по полу — сравнивает распределение по возрасту среди мужчин и женщин Точечная диаграмма — представляет многофакторный анализ с учетом всех переменных
Этапы работы
Предобработка данных
Началом работы стала загрузка и предварительная обработка датасета: Импорт файла в Google Colab через специальный интерфейс загрузки Перевод названий столбцов и категориальных значений на русский язык Создание дополнительных признаков: возрастные группы (0-18, 19-30, 31-45, 46-60, 61+) и группы скорости (диапазоны по 20 км/ч) Подготовка данных для визуализации с необходимыми агрегациями
Использование нейросетей
В процессе проекта я активно применяла модель DeepSeek для: Написания и оптимизации кода на Python Подбора оптимальных параметров визуализации Исправления синтаксических ошибок в сложных фрагментах кода Формулировки выводов на основе полученных визуализаций Наиболее полезными оказались следующие промпты: «Напиши код для анализа факторов выживаемости в ДТП на Python» «Как лучше визуализировать связь между возрастом, скоростью и выживаемостью?» «Исправь ошибки в коде тепловой карты с несколькими параметрами»
Стилизация графиков
Для всех визуализаций я разработала единую цветовую схему, основанную на пяти гармоничных цветах: Синие оттенки для положительных показателей (выживаемость) Красные и оранжевые для отрицательных показателей (невыживаемость) Дополнительные цвета для создания градиентов и акцентов Все графики оформлены в едином стиле с использованием: Сетки с пунктирными линиями для улучшения читаемости Четких подписей осей и заголовков с увеличенным шрифтом Легенд с понятными обозначениями Отображения конкретных значений (процентов) на графиках
Итоговые графики и их интерпретация
1. Распределение скорости при столкновении и выживаемость
Первый график показывает, как распределяется выживаемость в зависимости от скорости столкновения. Явно видна закономерность: чем выше скорость, тем меньше шансов выжить. Особенно заметен резкий спад выживаемости после отметки 80 км/ч. В диапазоне 100-120 км/ч подавляющее большинство случаев заканчивается летальным исходом.
2. Процент выживаемости по возрастным группам
На этом графике неожиданно обнаруживается, что самый низкий показатель выживаемости (20%) у молодых людей от 0 до 18 лет. Далее выживаемость растет с возрастом, достигая максимума в группе 46-60 лет (56.4%). Группы 31-45 и 61+ также показывают относительно высокие показатели выживаемости (около 50%).
3. Влияние использования защитных средств на выживаемость
Два горизонтальных графика наглядно демонстрируют разницу в выживаемости при использовании защитных средств: Ремень безопасности увеличивает шансы на выживание с 47,2% до 53,2% При использовании защитного шлема выживаемость составляет 48,6% против 52,8% без шлема Интересно, что по данному набору данных использование шлема не показало ожидаемого положительного эффекта.
4. Тепловая карта выживаемости по возрасту и скорости
Тепловая карта дает комплексное представление о взаимовлиянии двух факторов. Наблюдаются закономерности: Наивысшая выживаемость (100%) в клетках с низкой скоростью (0-20 км/ч) для возрастных групп 19-30 и 46-60 Некоторые неожиданные аномалии, например, 100% выживаемость в группе 61+ при скорости 81-100 км/ч Нулевая выживаемость в группе 0-18 лет при скоростях 0-20 и 81-100 км/ч
5. Различия в выживаемости между полами
Сравнительные гистограммы показывают различия в паттернах выживаемости между мужчинами и женщинами: У женщин наблюдается больше случаев с высокой выживаемостью в возрасте 50-60 лет У мужчин больше случаев гибели распределено по возрастам 30-60 лет Женщины показывают более высокую выживаемость в возрасте после 50 лет
6. Точечная диаграмма факторов выживаемости
Комплексная диаграмма объединяет все факторы: Цвет точек (от красного к зеленому) отражает выживаемость Размер точек показывает количество используемых средств защиты Положение точек соответствует возрасту (вертикальная ось) и скорости (горизонтальная ось) График демонстрирует сложное взаимодействие факторов, но позволяет заметить тенденцию: зеленые точки (выжившие) чаще встречаются при низких скоростях и с большим размером (больше средств защиты)
Выводы
Анализ данных о дорожных происшествиях позволил выявить несколько ключевых факторов, влияющих на выживаемость: Скорость при столкновении является критическим фактором — при превышении 80 км/ч шансы на выживание существенно снижаются.
Возраст имеет неожиданное влияние: вопреки ожиданиям, молодые люди (0-18) показывают самую низкую выживаемость, а люди среднего и старшего возраста — более высокую.
Использование защитных средств показывает неоднозначные результаты: ремни безопасности увеличивают выживаемость, а защитные шлемы в данной выборке не продемонстрировали ожидаемого положительного эффекта.
Пол также влияет на исход: женщины имеют более высокие показатели выживаемости в старшем возрасте по сравнению с мужчинами.
Комбинация факторов создает сложную картину выживаемости, где присутствуют как ожидаемые закономерности, так и статистические аномалии.
Результаты исследования могут быть полезны для: Разработки более эффективных программ дорожной безопасности Создания целевых профилактических мер для групп повышенного риска Пересмотра стандартов безопасности транспортных средств с учетом возрастных особенностей
Описание применения генеративной модели
В рамках данного проекта я использовала генеративную модель DeepSeek для нескольких задач: Создание базового кода для анализа данных и построения различных типов визуализаций с использованием библиотек Pandas, Matplotlib, Seaborn и NumPy.
Оптимизация параметров визуализации — подбор оптимальных цветовых схем, размеров графиков, шрифтов и других элементов оформления.
Отладка сложных фрагментов кода, особенно при работе с тепловой картой и точечной диаграммой, где требовалась настройка множества параметров.
Формулировка аналитических выводов на основе визуализаций и выявление неочевидных закономерностей в данных.
Папка с данными и кодом: https://drive.google.com/drive/folders/1WcAL60a7O4_K6snM7NLTo1P3boMgu4Tk?usp=sharing