
Концепция

Сердечные заболевания возникают по различным причинам: возраст, холестерин, пол и прочее. Разумеется, сложно сказать со всей уверенностью, из-за чего именно они возникают, но можно сделать некоторые предположения, исходя из большого объёма данных.
В анализе использовался Heart Prediction Dataset (Quantum), находящийся на сайте Kaggle [1]. В датасете находится много информации о различных людей, среди которых есть как те, у кого имеются сердечные заболевания, так и те, у кого этих заболеваний нет.

Обработка данных
В программе используются: библиотека pandas для csv, matplotlib.pyplot для визуализации, seaborn для стилизации.

В рамках данных уже присутствуют значения, от которых можно делать те или иные выводы о связи сердечных заболеваний с показателями, что далее будет более подробно раскрыто в графиках.
Визуализация данных
Первый график — график плотности вероятности, который отражает, что для конкретного возраста пациент будет иметь сердечное заболевание, где 0 — нет заболеваний, а 1 — есть. Уже по этому графику можно сделать вывод, что в период примерно с 36 до 58 лет наименьший риск заиметь сердечное заболевание.
Второй график уже является комбинированным, он состоит из диаграммы рассеяния с добавлением шума и коробчатой диаграммы. На основе этого графика можно сделать вывод, что у здоровых людей уровень холестерина несколько выше, чем у больных пациентов
На третьем скрипичном графике видно распределение артериального давления у здоровых и больных людей. Как можно выделить невооружённым взглядом, люди с более высоким давлением чаще избегают сердечные заболевания.
На четвёртом же скрипичном графике отображено распределение частоты сердечных сокращений. Если посмотреть только распределение ЧСС (частоты сердечных сокращений) у больных пациентов, то можно подумать, что этот показатель особо никак не влияет, потому что значения примерно одинаковым образом распределены по частотам. Если же обратить внимание на распределение у здоровых людей, то можно выделить, что всё же чем большее ЧСС, тем больше здоровых людей. Можно сказать, что этот показатель нельзя выбирать основным для определения наличия сердечных болезней, но можно подметить, что у здоровых людей выражена тенденция к более высоким значениям ЧСС.
Список источников
[1] Kaggle — сайт соревнований для специалистов по Data Science: https://www.kaggle.com/datasets/shantanugarg274/heart-prediction-dataset-quantum Просмотрено: 20.03.2025.
Блокнот с кодом и датасет
Ссылка на код с датасетом: https://disk.yandex.ru/d/wrMG4lNFs9I9Ww