关于数据预处理的问题 #27

L0ngxhn · 2021-07-30T08:29:14Z

大佬你好，我发现pro_data.py代码上有个小逻辑没有处理。但是不确定会不会最终影响实验结果。

Line 256 in a119c1e

data_test = data_test.drop(all_index)

247行和 253行可能导致 train数据集中重复添加相同记录，从而导致数据集处理前后总数不一致问题。

将224行划分成train：test = 2:8，可大概率复现该现象。

L0ngxhn · 2021-07-30T08:30:56Z

master和pl都可能存在该问题

###该死的排版。。。忘了提交前先Preview一下了。