Skip to content

Выпускная проектная работа IT Академии Samsung

Notifications You must be signed in to change notification settings

DimDey/carpriceanalytics

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

4 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Отчет по проекту «Анализ рынка подержанных автомобилей»

Выполнили:

Данная работа предполагает анализ рынка подержанных автомобилей. Понимание текущих тенденций и факторов, влияющих на стоимость автомобилей, важно для всех участников рынка - как для продавцов, так и для покупателей. Продавцы смогут лучше понимать, какие марки и модели пользуются наибольшим спросом и устанавливать конкурентные цены. Знание сезонных колебаний спроса поможет планировать рекламные акции и распродажи в наиболее выгодное время. Покупателям же интересны машины, которые лучше сохраняют свою стоимость, например, в зависимости от пробега.

В рамках данной работы мы предлагаем выполнить следующие задачи:

  • Анализ состояния рынка и определение наиболее популярных марок и моделей автомобилей.
  • Исследование влияния возраста автомобиля, пробега, марки, модели и состояния на его стоимость.
  • Визуализация данных с помощью графиков и диаграмм для наглядного представления результатов исследования.

Описание датасета

Для проводимого анализа нам потребуется датасет с поддержанными авто. Изучив Kaggle, мы приняли решение взять датасет Russian Car Market (Feb-March 2023), так как он является наиболее обширным источником спарсенных данных о российском рынке подержанных автомобилей за февраль и март 2023 года. В датасете находится более миллиона строк. Датасет включает следующие поля:

  • Cost: Стоимость автомобиля.
  • Currency: Валюта цены.
  • Marka: Марка автомобиля.
  • Model: Модель автомобиля.
  • Year: Год производства автомобиля.
  • Has_license: Наличие лицензии.
  • Place: Местоположение продажи.
  • Date: Дата размещения объявления.
  • ID: Уникальный идентификатор объявления.
  • Engine: Тип двигателя.
  • Power: Мощность двигателя.
  • Gear: Коробка передач.
  • Probeg: Пробег автомобиля.
  • SWheel: Расположение руля.
  • Complectation: Комплектация автомобиля.
  • Transmission: Тип трансмиссии.
  • R, G, B: Цвет автомобиля в формате RGB.

Ход работы

Гипотеза

Учитывая текущие события на рынке авто, можно предположить, что китайские марки авто становятся популярнее сегодня. Гипотеза заключается в том, что количество китайских автомобилей на рынке подержанных автомобилей увеличивается. Для ее проверки можно сравнить данные о марках автомобилей за несколько лет, а также провести анализ динамики количества китайских автомобилей.

Актуализация датасета

В первую очередь нам потребуется актуализировать датасет новыми данными. Для актуализации датасета был разработан парсер, который собирает данные о подержанных автомобилях с сайта drom.ru. Парсер использует библиотеки Selenium для автоматизации веб-браузера и BeautifulSoup для обработки HTML-страниц. Для каждого объявления парсер извлекает детальную информацию, включая марку, модель, год выпуска, пробег, тип двигателя и мощность. В процессе обработки данных учитываются возможные ошибки и некорректные значения, которые заменяются на значения по умолчанию или исключаются из анализа.

Процесс парсинга включает в себя следующие шаги:

  1. Парсер запускает веб-браузер с помощью Selenium, открывает сайт и создает сессию для взаимодействия с веб-страницами.
  2. Парсер переходит на страницу с объявлениями и извлекает ссылки на отдельные объявления, а также основные данные, такие как цены и местоположения.
  3. Извлеченные данные преобразуются в удобный формат и записываются в CSV-файл для дальнейшего слияния датасетов.

Интеграция данных в исходный датасет

Собранные данные добавляются в основной датасет, обновляя его актуальными сведениями о состоянии рынка подержанных автомобилей. Интеграция новых данных произведена с помощью скрипта toCountry.py. В этом скрипте: создается словарь brand_country, который содержит сопоставление марок автомобилей и стран их производства. Этот словарь используется для добавления информации о стране производства в основной датасет (в новую колонку country). Основной датасет загружается из CSV-файла с помощью функции pd.read_csv. Заполняются отсутствующие значения в столбцах power, probeg, R, G, B нулями. Приводятся типы данных столбцов к необходимым форматам (целочисленные, строковые, и т.д.). Столбец has_license и id преобразуется в целочисленный тип данных с учетом возможных ошибок. С помощью метода map и словаря brand_country, каждому значению в столбце marka сопоставляется страна производства. Если марка автомобиля отсутствует в словаре, значение по умолчанию устанавливается как 'Other'. Обновленный датасет сохраняется в новый CSV-файл с помощью функции df.to_csv.

Очистка датасета

Перед началом анализа данных была проведена очистка датасета. В процессе очистки были выполнены следующие шаги:

  1. Столбцы, которые не использовались в анализе, были удалены. Это включало такие столбцы, как currency, R, G, B, has_license, и sWheel.
  2. Были исключены записи с марками, которые не входили в список популярных. Также были удалены записи с пропущенными значениями в критически важных столбцах, таких как cost, year, power и probeg.

Выводы, полученные в процессе очистки данных:

  • Количество записей до очистки: 1,084,039
  • Количество записей после очистки: 974,803

Анализ состояния рынка и определение наиболее популярных марок автомобилей

Для начала, мы проанализировали общее состояние рынка автомобилей и получили самые дорогие марки автомобилей за весь период датасета.

Средняя цена по бренду

График показывает среднюю стоимость автомобилей по маркам. Из него видно, что такие бренды, как Rolls-Royce, Lamborghini и Ferrari, имеют самые высокие средние цены.

image

Средняя цена по бренду для автомобилей, выпущенных после 2023 года

График аналогичен первому, но фильтрует автомобили, выпущенные в 2023 году и позже. Мы можем увидеть, что не бюджетные иномарки сохранили свою стоимость и даже выросли в цене.

image

Наиболее популярные бренды автомобилей, выпущенные до 2023 года

image

Наиболее популярные бренды автомобилей, выпущенные после 2023 года

Здесь стоит учесть, что актуализированных данных слишком мало, сравнивая с исходными, но общую тенденцию можно отследить: ЛАДА и китайский HAVAL занимают лидирующие места.

image

Исследование влияния возраста автомобиля, пробега, марки, модели и состояния на его стоимость

Средняя стоимость автомобиля в зависимости от десятилетия производства

График показывает, что автомобили, произведенные в последние годы, имеют значительно более высокие средние стоимости, и эта тенденция сохраняется.

image

Влияние пробега на стоимость автомобиля

График демонстрирует, что с увеличением пробега стоимость автомобиля существенно снижается, после 150k-200k км стабилизируется.

image

Корреляционная матрица

Матрица показывает взаимосвязь между различными параметрами, такими как год выпуска, мощность двигателя и пробег, и их влияние на стоимость автомобиля. Мы можем заметить, что зависимость цены от мощности и года производства авто прямая, а цены от пробега обратно пропорциональная.

image

Продаваемые автомобили по стране производства

Для подтверждения гипотезы нам не хватает проанализровать количество продаваемых автомобилей в 2023 и после 2023 года.

График показывает распределение автомобилей по странам производства, согласно старым объявлениям за 2022 год. Видим, что наиболее популярные производители авто из Южной Кореи, Японии, России.

image

Аналогичный график за 2023 год и позже демонстрирует доминирующее положение китайских производителей, что подтверждает гипотезу.

image

Также можно взглянуть на круговые диаграммы с процентным соотношением стран производителей (до 2023 года и после)

image

Выводы

В ходе выполнения работы были проанализированы:

  • Состояние рынка подержанных автомобилей. Определены наиболее популярные марки.
  • Исследованы факторы, влияющие на стоимость автомобилей, и выполнена визуализация данных для наглядного представления результатов.
  • Гипотеза о росте количества китайских автомобилей на рынке подержанных автомобилей подтвердилась.

About

Выпускная проектная работа IT Академии Samsung

Resources

Stars

Watchers

Forks