-
Notifications
You must be signed in to change notification settings - Fork 988
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
使用体验 #759
Comments
1、2的问题可以在modelscope的demo上测试下新版的效果,相对老版本会有一定改善 |
我测试了下,效果确实好了一些,现在是还没发版么? |
对,现在还在开发中,只在demo上开放测试 |
麻烦问下,预计什么时候发版 |
10月底 |
10月底这一版会增加公式识别的开关么? |
现在的训练数据没有见过这种类型的文档,这种上下边界较近的块会被当成header和footer丢掉 |
类似这种结构的后续可以支持么? |
我们应该没有类似简历这种类型的数据来训练,不知道能否提供一批脱敏的文档给我们微调呢? |
我这里也不太多,目前只有这两份,我看看能不能把这份简历转成docx,然后提供这两种简历类型的docx模板给你们 |
to fix your trouble check this solution click |
我们尝试了大概50份文件,发现了一些存在的现象:
1、存在信息内容粘连情况。换行、空格等识别效果不太好
2、复杂结构容易出现内容错乱情况,比如左右结构的文档,比如:
文件内容:
识别后模块:
3、个别字符前后会加上$符号,比如:
文件内容:
识别后内容:
问题1、2,我看文档应该是属于TODO部分-》【 基于语义的阅读顺序】,麻烦问下这个TODO预计什么时候解决呢?
类似问题3应该怎么处理?
The text was updated successfully, but these errors were encountered: