Original size 537x819

Анализ данных о пассажирах «Титаника»

PROTECT STATUS: not protected

Крушение «Титаника» стало одним из самых трагичных событий в морской истории.

15 апреля 1912 года, во время своего первого рейса, знаменитый лайнер, считавшийся «непотопляемым», столкнулся с айсбергом и ушел на дно. Увы, количество спасательных шлюпок оказалось недостаточным для всех пассажиров и членов экипажа, что привело к гибели 1502 человек из 2224.

Концепция

Проект, посвященный анализу данных о пассажирах «Титаника», направлен на исследование факторов, влияющих на выживаемость в ходе этой трагедии. Хотя элемент удачи, безусловно, имел значение, предварительные исследования предполагают, что определенные группы людей могли обладать преимуществами, способствующими их выживанию.

В рамках данного исследования будет разработана прогностическая модель, целью которой является ответ на вопрос: «Какие группы людей имели наибольшие шансы на выживание?».

Визуальное оформление

big
Original size 3500x543

Цветовая палитра данного проекта разработана с использованием темных холодных оттенков синего, которые создают атмосферу глубины и таинственности. Эти цвета формируют ощущение трагедии, ассоциируемой с крушением «Титаника».

В рамках этой палитры выделяется один теплый акцентный цвет, который привлекает внимание и подчеркивает ключевые элементы. Цветовая палитра не только обладает эстетической привлекательностью, но и насыщена глубоким смыслом, отражая сложные эмоции, связанные с историей «Титаника» и его пассажирами.

Методология

В качестве объекта исследования был выбран открытый датасет Titanic Dataset с сайта Kaggle https://www.kaggle.com, содержащий информацию о пассажирах лайнера «Титаник». Данные представлены в табличном формате (CSV) и включают демографические характеристики пассажиров (пол, возраст), социальные признаки (класс билета), а также целевую переменную — факт выживания.

Для обработки данных, выполнения расчетов и создания визуализаций был применен язык Python с библиотеками Pandas и Matplotlib. В качестве среды разработки использовался Google Colab.

Для представления результатов анализа были использованы различные типы графиков:

-круговые и кольцевые диаграммы — для отображения долей и структуры выживших; -столбчатые диаграммы — для сравнения категорий; -распределительные графики — для анализа количественных признаков.

Выбор каждого типа визуализации был обусловлен характером данных и задачей интерпретации.

Подготовка данных

В начале работы в Google Colab были импортированы необходимые библиотеки и выполнены их настройки. Затем был загружен датасет Titanic Dataset (CSV). Также на стартовом этапе была произведена установка и регистрация шрифта Podkova, а также создана цветовая палитра для дальнейших визуализаций данных.

0

Далее осуществляется проверка на наличие пропусков в данных. Для заполнения недостающих значений возраста используется медианное значение. Также производится преобразование категориальных данных.

post

На этапе анализа данных была проверена структура датасета с помощью методов head (), info () и describe (), что позволило ознакомиться с типами данных, выявить пропуски и получить базовые статистические характеристики. Этот этап необходим для корректной интерпретации данных и выбора методов анализа и визуализации.

Визуализация данных

График 1

0

Круговая диаграмма показывает общее соотношение выживших и погибших пассажиров на борту «Титаника». Большая часть пассажиров погибла — около 61,6%, в то время как выжили лишь 38,4%. Это указывает на масштаб катастрофы и подчёркивает, что вероятность выживания была значительно ниже 50%. Данный график задаёт общий контекст исследования и служит отправной точкой для дальнейшего анализа факторов, влияющих на выживаемость.

График 2

0

На графике видно, что среди выживших значительно преобладают женщины по сравнению с мужчинами. Это подтверждает исторически известный принцип эвакуации «женщины и дети — вперёд», который оказал существенное влияние на шансы на выживание. Пол пассажира являлся одним из ключевых факторов, определяющих вероятность спасения.

График 3

0

Основная часть пассажиров находилась в возрасте от 20 до 40 лет, при этом также присутствуют дети и пожилые люди. Распределение имеет выраженную асимметрию, а наличие редких значений указывает на широкий возрастной диапазон пассажиров. Данный график позволяет оценить демографический состав пассажиров и служит основой для анализа выживаемости по возрастным группам.

График 4

0

Диаграмма выживаемости по возрастным группам показывает, что наибольшая доля выживших наблюдается среди детей и подростков, тогда как у пассажиров среднего и пожилого возраста вероятность выживания ниже. Это подтверждает приоритет эвакуации младших пассажиров и указывает на возраст как важный социально-демографический фактор, влияющий на исход катастрофы.

График 5

0

Разброс цен на билеты у выживших и погибших пассажиров не слишком различается: большинство цен находится в низком и среднем диапазонах. Однако у выживших чаще встречаются более дорогие билеты, в то время как у погибших преобладают дешевые. Это говорит о том, что высокая цена билета и социальный статус повышают шансы на выживание, хотя не являются единственным фактором.

График 6

0

Кольцевая диаграмма иллюстрирует распределение выживших пассажиров по классам билетов. Наибольшую долю среди выживших составляют пассажиры первого класса, тогда как пассажиры второго и третьего классов представлены в меньшей степени. Это отражает социальное неравенство, проявившееся во время катастрофы: пассажиры более высокого класса имели лучший доступ к спасательным средствам и информации, что увеличивало их шансы на выживание.

Заключение

Анализ данных показал, что выживаемость пассажиров «Титаника» в наибольшей степени зависела от пола и класса билета.

Женщины и пассажиры первого класса имели значительно более высокие шансы на спасение, что отражает приоритеты эвакуации. Стоимость билета у выживших в среднем была выше, однако разброс значений у выживших и погибших оказался схожим, поэтому влияние этого фактора можно считать незначительным. В целом выживание определялось сочетанием социальных и демографических характеристик пассажиров.

Описание применения генеративной модели

В рамках проекта была использована генеративная модель. Для исправления опечаток и небольших ошибок в коде применялся ChatGPT 5.1, доступный по ссылке https://chat.openai.com/.

Анализ данных о пассажирах «Титаника»
Project created at 14.01.2026
We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more