-
Notifications
You must be signed in to change notification settings - Fork 0
/
Copy pathописание итоговой работы.txt
32 lines (20 loc) · 2.13 KB
/
описание итоговой работы.txt
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
Данные имеют следующие особенности
в колонках Расстояние и время содержится расстояние до Заказчика и время.
скорее всего Расстояние и время очень важно когда водитель принимает решение ехать ему или нет.
в колонках Долгота и Широта координаты Водителя и Заказчика.
по Долготе и Широте можно рассчитать расстояние.
из 100 тыс строк в 26 тыс строк значений Расстояния и времени нет.
Основная суть решения :
берем категорийные столбцы и делаем их парсинг OneHotEncoder
к таким столбцам относятся
Модели обучаем методом Деревьев решений и XGBClassifier
далее уже делаем варианты основного решения :
1) в первом Варианте отбрасываем строки с незаполненным Расстоянием. получаем точность модели :
точность 54% - 65%
2) вариант делаем рассчет Растояний. Время заполняем по средней скорости.
точность 60% - 66%
3) вариант точно такой же как 2, но предполагаем возможно время не имеет значения и оставим только расстояние. Время отбрасываем.
точность 56% - 65%
4) вариант к варианту 2) добавляем столбец с номером водителя. всего водителей 450 в датасете. наверное это не совсем корректно делать модель под конкретных водителей. но точность возрастает значительно
точность 81% - 74%
базовый основной вариант 2)