Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

oversampling ratios #3

Open
hyliush opened this issue Jun 8, 2021 · 6 comments
Open

oversampling ratios #3

hyliush opened this issue Jun 8, 2021 · 6 comments

Comments

@hyliush
Copy link

hyliush commented Jun 8, 2021

image
感谢作者团队的贡献

有个地方没有看懂,想请教一下,论文里只说明了抽取次数,每次的比例是多少啊?谢谢

@ume-technology
Copy link

ume-technology commented Jun 17, 2021

老哥你复现了他的结果没,我现在复现它的结果,但是我出现了 preprocess linear sequence 数据的时候,linear 格式的数据不能生成的情况,你完成了这个脚本的过程么?我不确定是我的数据集出了问题还是哪里出了问题,我用的 conll2003 数据集, train.txt 是下图这样的,老哥你是用的这个么?如果是我的数据集错了,老哥你有正确的数据集让我看一下么?
image

@liulinlin90
Copy link
Collaborator

liulinlin90 commented Jun 23, 2021

老哥你复现了他的结果没,我现在复现它的结果,但是我出现了 preprocess linear sequence 数据的时候,linear 格式的数据不能生成的情况,你完成了这个脚本的过程么?我不确定是我的数据集出了问题还是哪里出了问题,我用的 conll2003 数据集, train.txt 是下图这样的,老哥你是用的这个么?如果是我的数据集错了,老哥你有正确的数据集让我看一下么?
image

你好,这个预处理脚本读文件的格式是一列token,一列label。可以把你的训练数据处理成这种格式,比如用命令:awk '{print $1,$4}' train.txt

@liulinlin90
Copy link
Collaborator

image
感谢作者团队的贡献

有个地方没有看懂,想请教一下,论文里只说明了抽取次数,每次的比例是多少啊?谢谢

你好,具体的比例请参考Table11。这里每个实验中sample了1k,2k,4k gold数据来模拟低资源的情况,并用sample的数据来做数据增强生成更多的数据。为了减少augmentation的数据的噪音影响,我们把gold数据复制n次与augmentation的数据混合,以提高gold数据的比例。Table11中第一列的 gold x n中,n代表重复gold数据的次数。

@hyliush
Copy link
Author

hyliush commented Jun 26, 2021

老哥你复现了他的结果没,我现在复现它的结果,但是我出现了 preprocess linear sequence 数据的时候,linear 格式的数据不能生成的情况,你完成了这个脚本的过程么?我不确定是我的数据集出了问题还是哪里出了问题,我用的 conll2003 数据集, train.txt 是下图这样的,老哥你是用的这个么?如果是我的数据集错了,老哥你有正确的数据集让我看一下么?
image

不好意思啊,邮件进垃圾箱了,数据集两列,一列字符,一列标签

@hyliush
Copy link
Author

hyliush commented Jun 26, 2021

image
感谢作者团队的贡献
有个地方没有看懂,想请教一下,论文里只说明了抽取次数,每次的比例是多少啊?谢谢

你好,具体的比例请参考Table11。这里每个实验中sample了1k,2k,4k gold数据来模拟低资源的情况,并用sample的数据来做数据增强生成更多的数据。为了减少augmentation的数据的噪音影响,我们把gold数据复制n次与augmentation的数据混合,以提高gold数据的比例。Table11中第一列的 gold x n中,n代表重复gold数据的次数。

好的谢谢

@woshierniu
Copy link

image
感谢作者团队的贡献
有个地方没有看懂,想请教一下,论文里只说明了抽取次数,每次的比例是多少啊?谢谢

你好,具体的比例请参考Table11。这里每个实验中sample了1k,2k,4k gold数据来模拟低资源的情况,并用sample的数据来做数据增强生成更多的数据。为了减少augmentation的数据的噪音影响,我们把gold数据复制n次与augmentation的数据混合,以提高gold数据的比例。Table11中第一列的 gold x n中,n代表重复gold数据的次数。

你好,看了你的解释,我还是有点不懂。实验中进行比较的时候,例如在1K情况,那么一个训练集就是1K条原始训练集,另一个训练集是1K数据复制n次与augmentation的数据混合(n*1k + augmentation)吗?

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

4 participants