Original size 720x900

Визуализация данных Airbnb

PROTECT STATUS: not protected

Вводная часть:

Тема: Анализ данных Airbnb (Берлин): цены, спрос (загрузка) и районы Цель: понять, от чего зависит цена, где жильё дороже/дешевле, и как выглядит спрос по данным календаря и отзывов. Инструменты: Python, Pandas, Matplotlib.

набор в формате Inside Airbnb (Airbnb listings + calendar + reviews + районы). Использованные файлы:

listings.csv.gz — карточки объявлений (тип жилья, цена, вместимость, рейтинг и т. д.)

calendar.csv.gz — доступность по дням (можно оценить загрузку/спрос)

reviews.csv.gz — отзывы с датами (динамика по месяцам)

neighbourhoods.geojson — границы районов для карты

Период выгрузки: в данных есть поле last_scraped ≈ 24.09.2025, а календарь покрывает примерно год вперёд.

Airbnb — понятный реальный рынок: цена, локация, тип жилья влияют на выбор людей.

Эти данные полезны для практики: тут есть и таблицы, и временные ряды, и география (карта).

Для бизнеса/хостов ценность такая: 1)понять, какая цена типичная. 2)где районы дороже. 3) как приблизительно оценить спрос через «занятость» календаря.

Я сделал 5 разных типов графиков:

Гистограмма — чтобы увидеть распределение цен и «хвост» дорогих вариантов

Boxplot (ящик с усами) — чтобы сравнить цены по типам жилья (медиана и разброс)

Scatter (точечная диаграмма) + тренд — чтобы увидеть связь «цена ↔ вместимость»

Линейный график — чтобы показать динамику отзывов по месяцам (как индикатор спроса)

Карта (хороплет) — чтобы показать медианную цену по районам визуально

Этапы работы:

Я использовал ChatGPT для:

подсказок по Pandas (как считать загрузку из календаря),

выбора подходящих видов графиков под задачу,

улучшения читабельности кода и подписей,

формулировки выводов «по-человечески».

Примеры промптов:

«Как из calendar Airbnb посчитать долю занятых дней (booked rate) по listing_id?»

«Предложи 4–5 разных графиков, чтобы объяснить цены/спрос/районы.»

«Сделай единый стиль matplotlib: белый фон, аккуратная сетка, один цвет-акцент и один цвет для выделения.»

  1. Загрузка данных
Original size 614x996

2. Чистка цены и базовые фильтры

Original size 1648x456

3. Обработка выбросов

Original size 1212x270

4. Свободные таблицы

Original size 2260x1030

График 1 — гистограмма цен

Original size 1241x706
Original size 1454x536

График 2 — boxplot по типам жилья

Original size 1241x709
Original size 1260x604

График 3 — scatter: цена vs вместимость

Original size 1241x709
Original size 1664x628

График 4 — отзывы по месяцам (линейный график)

Original size 1241x709
Original size 1416x708

График 5 — карта медианной цены по районам

Original size 1241x706
Original size 1104x1152

Использованные статистические методы

Описательная статистика: среднее, медиана, квартили

Перцентили (1–99%) для обработки выбросов по цене

Группировки groupby + агрегаты (median/mean/count)

Корреляция Спирмена (Spearman) — оценка связи без строгих требований к распределению

Линейная аппроксимация (тренд) на scatter для визуального понимания

Bootstrap (бутстрэп) — чтобы оценить доверительные интервалы средних (как пример «стат. устойчивости»)

Стиль и визуальная «консистентность»

Я выбрал минималистичный инфографический стиль:

белый фон

тонкая серая сетка

один основной цвет (холодный)

один цвет для акцента (тёплый)

короткие подписи «как читать график»

Вдохновение (как идея стиля):

аккуратные графики в стиле Datawrapper / Our World in Data (простота + читабельность)

Описание применения генеративной модели:

Код и текст визуального исследование сгенерированы ChatGPT 5.2 Thinking https://chatgpt.com

Визуализация данных Airbnb
Project created at 16.01.2026
We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more