
Выбранные данные:
Я выбрал датасет Cost of International Education, содержащий информацию о программах высшего образования в университетах по всему миру. Данные включают:
Страну и город;
Название университета и программу;
Уровень образования (Bachelor, Master, PhD);
Продолжительность обучения;
Стоимость обучения (в USD);
Стоимость жизни и аренды;
Виза, страховка;
Курс валюты.
Выбрал это потому что было проще найти такую статистику, а статистику, которую я хотел, я не нашел, а времени и сил уже нет.
Весь код за меня написал Диписк. Мне немного грустно, что я проигнорировал и пропустил достаточно интересный курс, возможно, это было ошибкой. Я с курса саунд арт и саунд дизайн, нам питон не вписывается, потому что для работы со звуком используют JavaScript и C++. С удовольствием прошел бы курс по ним, а не по питону, да и люди мы творческие. Честно заявляю о своем отношении, мне этот курс не нужен. Поставьте зачет, пожалуйста.
Ценность данных:
Эти данные представляют особую ценность для:
Абитуриентов, выбирающих университет за рубежом;
Исследователей в области международного образования;
Аналитиков образовательного рынка;
Студентов, планирующих обучение за границей.
Выбранные типы графиков:
Столбчатые диаграммы — для сравнения средних стоимостей по странам;
Боксплоты — для анализа распределения стоимости;
Тепловая карта корреляций — для выявления взаимосвязей;
Пузырьковая диаграмма — для многомерного анализа;
Линейный график — для трендов по странам.
Этапы работы: 1. Импорт библиотек и загрузка данных
2. Предобработка данных
3. Аналитическая обработка
Визуализация: График 1: Топ-20 стран по средней стоимости обучения
График 2: Распределение стоимости по уровням образования
График 3: Тепловая карта корреляций
График 4: Пузырьковая диаграмма для стран
Статистические методы:
Описательная статистика:
Среднее значение, медиана, стандартное отклонение;
Квартили для анализа распределения.
Корреляционный анализ:
Матрица корреляции Пирсона;
Выявление взаимосвязей между переменными.
Группировка и агрегация:
Группировка по странам, уровням образования;
Агрегация с использованием различных метрик.
Визуальная статистика:
Boxplot для анализа распределения и выбросов;
Гистограммы для анализа частотности.
Стилизация: Использованные техники:
Цветовые палитры:
Viridis для последовательных данных
Set3 для категориальных данных
Coolwarm для корреляционных матриц
Типографика:
Четкая иерархия заголовков
Единый шрифт во всех графиках
Жирное начертание для ключевых элементов
Композиция:
Сбалансированное расположение элементов
Минималистичные сетки
Консистентные отступы
Итоговые графики:
Представленные графики демонстрируют:
Изучающую визуализацию — анализ распределений, выявление закономерностей;
Объясняющую визуализацию — сравнение стран, континентов, уровней образования.
Ключевые находки:
США лидируют по стоимости образования;
PhD программы имеют наибольший разброс стоимости;
Сильная корреляция между стоимостью аренды и обучения;
Европейские страны предлагают более доступные варианты;
Азия представляет разнообразные ценовые сегменты.
Описание применения генеративной модели: Код и текст презентации сгенерированы с помощью Deepseek https://www.deepseek.com/ Обложка сделана в ChatGpt5 по запросу: нарисуй двумерную мультяшную картинку, где персонаж-нейросеть Дипсик пишет проект по програмированию за студента https://chatgpt.com/