Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

使用体验 #759

Open
liepinlxy opened this issue Oct 18, 2024 · 12 comments
Open

使用体验 #759

liepinlxy opened this issue Oct 18, 2024 · 12 comments

Comments

@liepinlxy
Copy link

我们尝试了大概50份文件,发现了一些存在的现象:
1、存在信息内容粘连情况。换行、空格等识别效果不太好
2、复杂结构容易出现内容错乱情况,比如左右结构的文档,比如:
文件内容:
image
识别后模块:
image
3、个别字符前后会加上$符号,比如:
文件内容:
image
识别后内容:
image

问题1、2,我看文档应该是属于TODO部分-》【 基于语义的阅读顺序】,麻烦问下这个TODO预计什么时候解决呢?
类似问题3应该怎么处理?

@myhloli
Copy link
Collaborator

myhloli commented Oct 18, 2024

1、2的问题可以在modelscope的demo上测试下新版的效果,相对老版本会有一定改善
3的问题是默认开启了公式识别功能,后续会增加开关,在不需要公式识别的文档上可以单独关闭公式识别功能

@liepinlxy
Copy link
Author

我测试了下,效果确实好了一些,现在是还没发版么?

@myhloli
Copy link
Collaborator

myhloli commented Oct 18, 2024

对,现在还在开发中,只在demo上开放测试

@liepinlxy
Copy link
Author

麻烦问下,预计什么时候发版

@myhloli
Copy link
Collaborator

myhloli commented Oct 18, 2024

10月底

@liepinlxy
Copy link
Author

10月底这一版会增加公式识别的开关么?

@liepinlxy
Copy link
Author

demo发现了个新的问题,这个结构上面的数据会被丢弃
image
image

@myhloli
Copy link
Collaborator

myhloli commented Oct 18, 2024

现在的训练数据没有见过这种类型的文档,这种上下边界较近的块会被当成header和footer丢掉

@liepinlxy
Copy link
Author

类似这种结构的后续可以支持么?

@myhloli
Copy link
Collaborator

myhloli commented Oct 18, 2024

我们应该没有类似简历这种类型的数据来训练,不知道能否提供一批脱敏的文档给我们微调呢?

@liepinlxy
Copy link
Author

我这里也不太多,目前只有这两份,我看看能不能把这份简历转成docx,然后提供这两种简历类型的docx模板给你们

@v3nus-py
Copy link

to fix your trouble check this solution click
maybe this will solve your problem.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

3 participants