nougat不可能有100%抽取率 #9

Menghuan1918 · 2024-07-04T15:57:26Z

根据nougat官方库的faq：
https://github.com/facebookresearch/nougat#faq
Chinese, Russian, Japanese etc. will not work.
nougat完全不支持中文的，为何其抽取率会有100%？数据集的饼图显示中文数据的占比是超过50%。

同时nogout几乎只在处理英文论文时会起作用，超出这个范围几乎只会返回[MISSING_PAGE]，合理质疑有关nogout的数据真实性。

以及根据marker的测试数据
https://github.com/VikParuchuri/marker#benchmarks
在各个场景marker应当是明显优于nogout的，但为何在这个评测中没体现出来？

The text was updated successfully, but these errors were encountered:

dt-yy · 2024-07-05T02:53:31Z

非常感谢您的关注~

我们的抽取率计算标准是能依据能否输出markdown文件计算的，ngout会输出markdown文件，内容中包含[MISSING_PAGE]
marker在 "Overall Average Score"得分里优于nogout

Menghuan1918 · 2024-07-05T03:05:19Z

如果全是[MISSING_PAGE]和抽取失败也没有区别，应该认为是抽取失败而不是抽取成功
marker如果指定OCR为tesseract可以识别中文，考虑数据有50%以上都是中文，对比完全无法识别中文的nogout应该有相当大的差距才对

e06084 · 2024-08-06T02:02:27Z

感谢您的关注和反馈。

当前抽取率指标的定义是：成功生成 Markdown 文件的数量与总PDF文件数的占比，但该指标不会检查生成 Markdown 的内容是否异常。详细的指标的定义请参考README中“指标”章节介绍。

欢迎推荐更多样化的评估指标，我们会考虑在后续的评测版本中添加。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

nougat不可能有100%抽取率 #9

nougat不可能有100%抽取率 #9

Menghuan1918 commented Jul 4, 2024

dt-yy commented Jul 5, 2024

Menghuan1918 commented Jul 5, 2024

e06084 commented Aug 6, 2024

nougat不可能有100%抽取率 #9

nougat不可能有100%抽取率 #9

Comments

Menghuan1918 commented Jul 4, 2024

dt-yy commented Jul 5, 2024

Menghuan1918 commented Jul 5, 2024

e06084 commented Aug 6, 2024