Original size 1140x1600

Как выбрать идеальный автомобиль в США

PROTECT STATUS: not protected

Введение

Для исследования я остановилась на наборе данных ALL_CARS_DATA, который охватывает свыше 260 тысяч автомобилей, представленных на первичном и вторичном рынках США. Этот датасет содержит разнообразные параметры: бренд, модель, год выпуска, пробег, тип кузова, ценовой диапазон, оценки пользователей, число отзывов и сведения о расположении дилеров. Источником послужил общедоступный репозиторий, а данные были специально структурированы для задач изучения рынка, прогнозирования стоимости и анализа впечатлений покупателей.

Выбор этого набора данных обоснован их уникальными преимуществами:

Широта охвата; Современность; Универсальность; Наглядность.

Наша цель — проверить предположения: Стоимость машины определяется её маркой, возрастом, пробегом и страной производства. Оценки пользователей связаны с типом кузова и возрастом автомобиля. Машины из Европы и Японии превосходят американские по надёжности, судя по рейтингам и отзывам. Регионы США демонстрируют разные предпочтения по стоимости и типу авто.

Для анализа и подтверждения гипотез мы разработали следующий набор графиков:

Диаграмма размаха (Boxplot): Выявляет разброс цен и медианные значения для разных брендов или возрастных групп, упрощая сравнение. Круговая диаграмма: Иллюстрирует доли типов кузова или происхождения марок, подчёркивая рыночные пропорции. Столбчатая диаграмма: Демонстрирует средние рейтинги брендов, помогая оценить доверие покупателей. Точечная диаграмма (Scatter): Раскрывает связь между пробегом и ценой, позволяя заметить тенденции. Тепловая карта: Показывает силу взаимосвязей между факторами (цена, возраст, рейтинг), выделяя ключевые зависимости.

Этапы работы

Зелёный цвет выбран как акцентный элемент в минималистичной палитре, чтобы подчёркивать важные данные на светлом фоне без перегрузки восприятия. Он вызывает ассоциации с стабильностью и доверием, поэтому хорошо подходит для визуализации цен, пробега и рейтингов.

В ходе работы был использован Google collab для написания кода и визуализации данных.

Ниже представлены визуализации, которые раскрывают влияние факторов на цену и рейтинг автомобилей, подтверждая или опровергая наши предположения.

График 1: Распределение цен по брендам (Boxplot)

Цель: Понять, какова ценовая разбивка у самых популярных брендов. Мы выделили бренды, встречающиеся более 1000 раз в базе, чтобы избежать статистического шума.

0

Боксплот по популярным брендам показал значительный разброс цен внутри каждой марки, особенно у премиальных производителей, что указывает на широкий ассортимент моделей в различных ценовых сегментах. Лидеры цен: Porsche, Mercedes-Benz. Стабильные цены и популярность: Audi, Ford, Jeep.

График 2: Распределение брендов (Pie chart) и (Barplot)

Цель: Визуализировать, какие бренды наиболее популярны в выборке.

0
0

Более 50% автомобилей приходится на 7 брендов, остальные разделяют меньшую долю. Это отражает рыночную концентрацию и доминирование определённых производителей.

Самый популярная марка Ford и Mercedes-Benz.

График 3: Средний рейтинг по типу кузова (Barplot)

Цель: Понять, влияет ли тип кузова на пользовательскую оценку.

0

Наивысшие рейтинги получают кроссоверы и купе — это может быть связано как с их комфортом, так и с имиджем. Минивэны и пикапы, напротив, получают более низкие оценки, несмотря на практичность.

График 4: Цена в зависимости от пробега (Scatterplot)

Цель: Исследовать, как изменяется цена автомобиля с увеличением пробега.

0

График показал, что у большинства топ-10 моделей автомобилей цена снижается с увеличением пробега, подтверждая обратную зависимость между этими показателями.

График 5: Корреляция между рейтингом, пробегом и ценой

Цель: Понять взаимосвязь между числовыми параметрами.

0

Тепловая карта показала, что между пробегом и ценой существует умеренно отрицательная корреляция, а рейтинг слабо коррелирует с другими показателями, что указывает на его относительную независимость.

График 6: Средняя цена по типу кузова

Цель: Сравнить, какие типы кузова обходятся дороже.

0

График показал, что средняя цена значительно варьируется в зависимости от типа кузова, при этом самые дорогие — это купе и внедорожники.

График 7

0

Между ценой и рейтингом автомобилей не наблюдается чёткой зависимости: как дешёвые, так и дорогие модели могут получать высокие или низкие оценки, что указывает на важность пользовательского опыта, а не стоимости.

Заключение

Проведённое исследование на основе датасета ALL_CARS_DATA.csv позволило проанализировать ключевые параметры автомобилей — цену, пробег, рейтинг, тип кузова, бренд и модель — с помощью визуализации на языке Python. Построенные графики отразили важные рыночные закономерности: распределение цен по брендам показало различия в ценовой политике производителей, круговая диаграмма отразила структуру брендов на рынке, а анализ средней стоимости по типам кузова — потребительские предпочтения по форм-фактору автомобилей.

Дополнительные визуализации выявили обратную зависимость между пробегом и ценой, а также умеренную корреляцию между рейтингом, пробегом и стоимостью, что позволило глубже понять поведение покупателей и логику ценообразования. Эти результаты могут быть полезны для стратегического планирования автодилеров, маркетинговых отделов и аналитиков автомобильной отрасли.

Использованные данные

Как выбрать идеальный автомобиль в США
Project created at 08.07.2025
We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more