关于pretraining时denoising的问题 #71

tu2022 · 2023-06-28T07:28:14Z

我看bart的论文在pretraining的时候会有五种denoising的方法，在bart_dataset.py中我看insert_ratio和rotate_ratio是设为0，似乎不能将其设为大于0的数，是否意味着不能进行text infilling和rotation？

choosewhatulike · 2023-06-29T04:00:37Z

是的，denoising我们follow了BART的设置，只使用text infilling，没有加入insert和rotate。BART论文中表示这样效果最好

tu2022 · 2023-07-03T10:02:02Z

还有个问题想问一下，你们这个预训练时，每个iteration时训练global batch size条数据吗？训练的每一条数据是截止至1024长度的文章，还是一整篇文章，文章被切割成一句一句，每一句padding到1024？

choosewhatulike · 2024-01-17T03:02:50Z

是第一种，太长的文章会被分成多个1024。短的会padding到1024

Provide feedback