Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

nougat不可能有100%抽取率 #9

Open
Menghuan1918 opened this issue Jul 4, 2024 · 3 comments
Open

nougat不可能有100%抽取率 #9

Menghuan1918 opened this issue Jul 4, 2024 · 3 comments

Comments

@Menghuan1918
Copy link

根据nougat官方库的faq:
https://github.com/facebookresearch/nougat#faq
Chinese, Russian, Japanese etc. will not work.
nougat完全不支持中文的,为何其抽取率会有100%?数据集的饼图显示中文数据的占比是超过50%。

同时nogout几乎只在处理英文论文时会起作用,超出这个范围几乎只会返回[MISSING_PAGE],合理质疑有关nogout的数据真实性。

以及根据marker的测试数据
https://github.com/VikParuchuri/marker#benchmarks
在各个场景marker应当是明显优于nogout的,但为何在这个评测中没体现出来?

@dt-yy
Copy link
Contributor

dt-yy commented Jul 5, 2024

非常感谢您的关注~

  1. 我们的抽取率计算标准是能依据能否输出markdown文件计算的,ngout会输出markdown文件,内容中包含[MISSING_PAGE]
  2. marker在 "Overall Average Score"得分里优于nogout

@Menghuan1918
Copy link
Author

  1. 如果全是[MISSING_PAGE]和抽取失败也没有区别,应该认为是抽取失败而不是抽取成功
  2. marker如果指定OCR为tesseract可以识别中文,考虑数据有50%以上都是中文,对比完全无法识别中文的nogout应该有相当大的差距才对

@e06084
Copy link
Collaborator

e06084 commented Aug 6, 2024

感谢您的关注和反馈。

当前抽取率指标的定义是:成功生成 Markdown 文件的数量与总PDF文件数的占比,但该指标不会检查生成 Markdown 的内容是否异常。详细的指标的定义请参考README中“指标”章节介绍。

欢迎推荐更多样化的评估指标,我们会考虑在后续的评测版本中添加。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

3 participants