
Концепция
Тема предсказания цен на авиаперевозки сегодня актуальна как никогда. В мире динамического ценообразования стоимость одного и того же кресла в самолете может меняться десятки раз в сутки, превращая покупку билета в настоящую стратегическую игру. Лично мне эта тема была невероятно интересна: я часто путешествую и всегда пытаюсь разгадать алгоритмы, по которым авиакомпании меняют цены, чтобы «ловить» самые выгодные предложения и понимать, стоит ли покупать билет сейчас или подождать еще день.
Для своего исследования я решила погрузиться в этот процесс изнутри. Данные я взяла с сайта Gigasheet, выбрав для анализа 400 строк из таблицы сэмпл-данных по предсказанию стоимости полетов. В зависимости от того, какой показатель я анализировала и что именно хотела узнать, я использовала разные виды графиков: «ящик с усами», точечные диаграммы, графики частотности и линии тренда.
Описание процесса работы
Работа началась с трудоёмкого этапа подготовки данных. Изначально файл не был стандартной таблицей Excel, поэтому мне пришлось вручную менять его формат на CSV и корректировать структуру, чтобы код смог распознать содержимое. Я провела глубокую «чистку»: заменила во всех числовых показателях точки на запятые (для корректного чтения десятичных дробей), удалила пустые строки и лишние пробелы в названиях столбцов, из-за которых возникали системные ошибки. Кроме того, я исключила нерелевантные данные и «шум», которые не имели значения для моего исследования, но мешали корректной работе кода.
Посмотрев на очищенный массив данных, я сделала выводы о том, какие показатели можно проанализировать и как их лучше соотнести друг с другом. Первым делом я написала код для работы в Google Colab для выбора шрифта и визуального оформления. Это оказалось едва ли не самой сложной частью: я перебрала множество вариантов, так как далеко не все шрифты хорошо смотрелись в коде и на финальных изображених. Остановившись на идеальном шрифте Sussie Intl, я загрузила свой CSV-файл и настроила уникальное цветовое решение, которое самостоятельно собрала на сайте coolors.co.


палитра
Первым результатом моей визуализации стал график в формате «ящика с усами», который демонстрирует разную стоимость билетов для различных авиакомпаний. Я выбрала именно такой тип диаграммы, так как он оказался самым удобным для отображения диапазона цен: он наглядно показывает медиану, а также минимальные и максимальные значения в чеке каждой компании.
график — 01
код — 01
Далее я построила график, который показывает отношение цены к длительности полёта. Чтобы сделать данные более прозрачными и наглядными, я применила разделение по классам обслуживания, выделив бизнес и эконом. Это позволило увидеть, как меняется стоимость в зависимости от времени, проведенного в небе, для разных уровней комфорта.
график — 02
код — 02
Третий график был посвящен популярности времени вылета. В ходе анализа выяснилось, что в моей выборке данных вечер оказался самым частотным временем, в которое люди отправлялись в путь. Это наблюдение дает интересную почву для размышлений о том, как спрос концентрируется в определенные часы суток.
график — 03
код — 03
Заключительным этапом стала визуализация динамики цены в зависимости от количества дней, оставшихся до рейса. Линейный график закономерно и очень наглядно подтвердил известное правило путешественников: ровно за два дня до вылета стоимость билета начинает резко и стремительно расти, достигая своего пика.
график — 04
код — 04
Этот проект научил меня не только работать с кодом и цифрами, но и помог увидеть реальную логику в ценах на билеты. Теперь я точно знаю, что на стоимость влияет всё: и бренд компании, и класс комфорта, и даже время суток. Но главное правило — не ждать до последнего. Теперь, планируя свой следующий отпуск, я буду гораздо внимательнее смотреть на графики, прежде чем бронировать рейс.
Описание применения генеративных моделей
В рамках данного проекта искусственный интеллект использовался как вспомогательный инструмент для решения аналитических и технических задач:
Gemini: использовалась для формирования концепции исследования и поиска релевантного набора данных. Модель помогла определить ключевые зависимости для анализа и предложила оптимальные варианты визуализации (выбор между различными типами графиков). Также Gemini применялась для написания программного кода на языке Python и оперативного исправления ошибок, возникавших при обработке нестандартных форматов данных.
Nano Banana: использовалась для генерации визуального оформления проекта (обложки).