Выполнили:
Данная работа предполагает анализ рынка подержанных автомобилей. Понимание текущих тенденций и факторов, влияющих на стоимость автомобилей, важно для всех участников рынка - как для продавцов, так и для покупателей. Продавцы смогут лучше понимать, какие марки и модели пользуются наибольшим спросом и устанавливать конкурентные цены. Знание сезонных колебаний спроса поможет планировать рекламные акции и распродажи в наиболее выгодное время. Покупателям же интересны машины, которые лучше сохраняют свою стоимость, например, в зависимости от пробега.
В рамках данной работы мы предлагаем выполнить следующие задачи:
- Анализ состояния рынка и определение наиболее популярных марок и моделей автомобилей.
- Исследование влияния возраста автомобиля, пробега, марки, модели и состояния на его стоимость.
- Визуализация данных с помощью графиков и диаграмм для наглядного представления результатов исследования.
Для проводимого анализа нам потребуется датасет с поддержанными авто. Изучив Kaggle, мы приняли решение взять датасет Russian Car Market (Feb-March 2023), так как он является наиболее обширным источником спарсенных данных о российском рынке подержанных автомобилей за февраль и март 2023 года. В датасете находится более миллиона строк. Датасет включает следующие поля:
Cost
: Стоимость автомобиля.Currency
: Валюта цены.Marka
: Марка автомобиля.Model
: Модель автомобиля.Year
: Год производства автомобиля.Has_license
: Наличие лицензии.Place
: Местоположение продажи.Date
: Дата размещения объявления.ID
: Уникальный идентификатор объявления.Engine
: Тип двигателя.Power
: Мощность двигателя.Gear
: Коробка передач.Probeg
: Пробег автомобиля.SWheel
: Расположение руля.Complectation
: Комплектация автомобиля.Transmission
: Тип трансмиссии.R, G, B
: Цвет автомобиля в формате RGB.
Учитывая текущие события на рынке авто, можно предположить, что китайские марки авто становятся популярнее сегодня. Гипотеза заключается в том, что количество китайских автомобилей на рынке подержанных автомобилей увеличивается. Для ее проверки можно сравнить данные о марках автомобилей за несколько лет, а также провести анализ динамики количества китайских автомобилей.
В первую очередь нам потребуется актуализировать датасет новыми данными. Для актуализации датасета был разработан парсер, который собирает данные о подержанных автомобилях с сайта drom.ru
.
Парсер использует библиотеки Selenium
для автоматизации веб-браузера и BeautifulSoup
для обработки HTML-страниц.
Для каждого объявления парсер извлекает детальную информацию, включая марку, модель, год выпуска, пробег, тип двигателя и мощность.
В процессе обработки данных учитываются возможные ошибки и некорректные значения, которые заменяются на значения по умолчанию или исключаются из анализа.
Процесс парсинга включает в себя следующие шаги:
- Парсер запускает веб-браузер с помощью Selenium, открывает сайт и создает сессию для взаимодействия с веб-страницами.
- Парсер переходит на страницу с объявлениями и извлекает ссылки на отдельные объявления, а также основные данные, такие как цены и местоположения.
- Извлеченные данные преобразуются в удобный формат и записываются в CSV-файл для дальнейшего слияния датасетов.
Собранные данные добавляются в основной датасет, обновляя его актуальными сведениями о состоянии рынка подержанных автомобилей.
Интеграция новых данных произведена с помощью скрипта toCountry.py
. В этом скрипте: создается словарь brand_country
, который содержит сопоставление марок автомобилей и стран их производства.
Этот словарь используется для добавления информации о стране производства в основной датасет (в новую колонку country
).
Основной датасет загружается из CSV-файла с помощью функции pd.read_csv.
Заполняются отсутствующие значения в столбцах power, probeg, R, G, B
нулями.
Приводятся типы данных столбцов к необходимым форматам (целочисленные, строковые, и т.д.).
Столбец has_license
и id
преобразуется в целочисленный тип данных с учетом возможных ошибок.
С помощью метода map и словаря brand_country
, каждому значению в столбце marka
сопоставляется страна производства.
Если марка автомобиля отсутствует в словаре, значение по умолчанию устанавливается как 'Other'
.
Обновленный датасет сохраняется в новый CSV-файл с помощью функции df.to_csv
.
Перед началом анализа данных была проведена очистка датасета. В процессе очистки были выполнены следующие шаги:
- Столбцы, которые не использовались в анализе, были удалены. Это включало такие столбцы, как
currency, R, G, B, has_license, и sWheel
. - Были исключены записи с марками, которые не входили в список популярных. Также были удалены записи с пропущенными значениями в критически важных столбцах, таких как
cost, year, power и probeg
.
Выводы, полученные в процессе очистки данных:
- Количество записей до очистки:
1,084,039
- Количество записей после очистки:
974,803
Для начала, мы проанализировали общее состояние рынка автомобилей и получили самые дорогие марки автомобилей за весь период датасета.
График показывает среднюю стоимость автомобилей по маркам. Из него видно, что такие бренды, как Rolls-Royce
, Lamborghini
и Ferrari
, имеют самые высокие средние цены.
График аналогичен первому, но фильтрует автомобили, выпущенные в 2023 году и позже. Мы можем увидеть, что не бюджетные иномарки сохранили свою стоимость и даже выросли в цене.
Здесь стоит учесть, что актуализированных данных слишком мало, сравнивая с исходными, но общую тенденцию можно отследить: ЛАДА и китайский HAVAL занимают лидирующие места.
График показывает, что автомобили, произведенные в последние годы, имеют значительно более высокие средние стоимости, и эта тенденция сохраняется.
График демонстрирует, что с увеличением пробега стоимость автомобиля существенно снижается, после 150k-200k км стабилизируется.
Матрица показывает взаимосвязь между различными параметрами, такими как год выпуска, мощность двигателя и пробег, и их влияние на стоимость автомобиля. Мы можем заметить, что зависимость цены от мощности и года производства авто прямая, а цены от пробега обратно пропорциональная.
Для подтверждения гипотезы нам не хватает проанализровать количество продаваемых автомобилей в 2023 и после 2023 года.
График показывает распределение автомобилей по странам производства, согласно старым объявлениям за 2022 год. Видим, что наиболее популярные производители авто из Южной Кореи, Японии, России.
Аналогичный график за 2023 год и позже демонстрирует доминирующее положение китайских производителей, что подтверждает гипотезу.
Также можно взглянуть на круговые диаграммы с процентным соотношением стран производителей (до 2023 года и после)
В ходе выполнения работы были проанализированы:
- Состояние рынка подержанных автомобилей. Определены наиболее популярные марки.
- Исследованы факторы, влияющие на стоимость автомобилей, и выполнена визуализация данных для наглядного представления результатов.
- Гипотеза о росте количества китайских автомобилей на рынке подержанных автомобилей подтвердилась.