Add this suggestion to a batch that can be applied as a single commit.
This suggestion is invalid because no changes were made to the code.
Suggestions cannot be applied while the pull request is closed.
Suggestions cannot be applied while viewing a subset of changes.
Only one suggestion per line can be applied in a batch.
Add this suggestion to a batch that can be applied as a single commit.
Applying suggestions on deleted lines is not supported.
You must change the existing code in this line in order to create a valid suggestion.
Outdated suggestions cannot be applied.
This suggestion has been applied or marked resolved.
Suggestions cannot be applied from pending reviews.
Suggestions cannot be applied on multi-line comments.
Suggestions cannot be applied while the pull request is queued to merge.
Suggestion cannot be applied right now. Please check back later.
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
922 preprocessor acceleration #1004
922 preprocessor acceleration #1004
Changes from 63 commits
f2cacc2
4a5a2cf
c0bff91
986d534
c594f81
54d10ee
fcabc4d
cf9447a
7431c98
a8b9c90
243df8e
b6d5e77
21f4ce4
001d8b1
267f704
d2d0f9e
466a3ea
3978514
f5e1589
806acd1
d6dd5a9
b6ecf9a
08712b3
571157c
b2e5f82
4d42edb
8f96d2d
7568b2b
d566947
eb7e28a
2247e02
9443d21
adc77b6
5570180
1c044ee
71560df
9e89a92
b91a993
74fe8b8
d3534d0
08e221e
f9e47cf
415bb0b
3d70436
6be9b2c
d39e623
280822e
e2e287a
752b4ac
0148e35
432d9ea
3c338d9
3fddcc8
315ab99
5240a6c
9a770e0
8c793bb
ac1a577
3084851
adaf590
097c163
94b6af5
be007cb
8e046f5
cac26f6
5f62ef4
b962148
d5b0648
8be836e
a91c9ba
304e29f
0c48f7f
File filter
Filter by extension
Conversations
Jump to
There are no files selected for viewing
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
Поиск категориальных столбцов требует времени, поэтому лучше брать индексы категориальных столбцов из
input_data
либо сохранять их там после определения.There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
Соглашусь с тобой. Думаю, что можно было бы проследить вызовы этой функции. Сохранение сделано для извлечения незакодированных категориальных признаков, добавлял такой признак в
InputData
, который сохраняет на одном из этапов предобработки.Однако думаю, что это мог бы быть оформлен в виде issue и выполнен последующим шагом, а не в этом PR.
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
str
?str
, то надо будет добавить аргументequal_nan
, это должно быть быстрее, чем приводить кstr
.There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
Так это же категориальные признаки. Думаю, что там могут быть и числа, например, 1, 2, 3 и тд. Наверное, в этом и была идея переводить к
str
Не понял. Можешь более детальнее?
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
Странно, потому что
'1'
и1
в таком случае получатся одной категорией.Для нового кода
1
в первом столбце и1
в любом другом - это одна уникальная категория. В старом коде1
в первом столбце - это уникальное значение для первого столбца, а1
во втором - для второго.There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
А почему только для
InputData
?There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
Сделал так, потому что в
MultiModal
данных отсутствуетsupplementary_data
. Из-за этого падали тесты. Думаю, что для них нужно сделать как-то по другому, и авто предобработать только если в них содержатся табличные данные. Пока не знаю как это можно лучше всего это сделать.There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
Может лучше ошибку кинуть?
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
Думаю, что
None
не просто так. Если посмотреть на использование функции, то от нее ожидается такое поведение. Если таких индексов нет, например, категориальных, то и данные должны быть пустыми, то естьNone
.