关于预训练过程中build_instances 句子切分的问题 #214

ShadowTeamCN · 2021-10-18T12:23:27Z

以MlmDataset 中最简单的字粒度为例，不开启full-sentence开关
当样本长度超过max_length时候，样本被切分
然而此时的 [CLS] [SEP] token 却只存在一份，这是由之前的 document 传入的，样本拆分后并没有产生额外的头尾 token
这种行为符合预期么，理论上每个单独的样本都应该具有一个 [CLS] 头 [SEP] 尾

ydli-ai · 2021-10-20T06:47:43Z

有道理，这个问题我确认一下

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

关于预训练过程中build_instances 句子切分的问题 #214

关于预训练过程中build_instances 句子切分的问题 #214

ShadowTeamCN commented Oct 18, 2021

ydli-ai commented Oct 20, 2021

关于预训练过程中build_instances 句子切分的问题 #214

关于预训练过程中build_instances 句子切分的问题 #214

Comments

ShadowTeamCN commented Oct 18, 2021

ydli-ai commented Oct 20, 2021