使用体验 #759

liepinlxy · 2024-10-18T03:00:58Z

我们尝试了大概50份文件，发现了一些存在的现象：
1、存在信息内容粘连情况。换行、空格等识别效果不太好
2、复杂结构容易出现内容错乱情况，比如左右结构的文档，比如：
文件内容：

识别后模块：

3、个别字符前后会加上$符号，比如：
文件内容：

识别后内容：

问题1、2，我看文档应该是属于TODO部分-》【基于语义的阅读顺序】，麻烦问下这个TODO预计什么时候解决呢？
类似问题3应该怎么处理？

myhloli · 2024-10-18T03:15:16Z

1、2的问题可以在modelscope的demo上测试下新版的效果，相对老版本会有一定改善
3的问题是默认开启了公式识别功能，后续会增加开关，在不需要公式识别的文档上可以单独关闭公式识别功能

liepinlxy · 2024-10-18T03:40:43Z

我测试了下，效果确实好了一些，现在是还没发版么？

myhloli · 2024-10-18T03:42:19Z

对，现在还在开发中，只在demo上开放测试

liepinlxy · 2024-10-18T03:43:14Z

麻烦问下，预计什么时候发版

myhloli · 2024-10-18T03:44:58Z

10月底

liepinlxy · 2024-10-18T03:46:38Z

10月底这一版会增加公式识别的开关么？

liepinlxy · 2024-10-18T03:58:47Z

demo发现了个新的问题，这个结构上面的数据会被丢弃

myhloli · 2024-10-18T04:00:07Z

现在的训练数据没有见过这种类型的文档，这种上下边界较近的块会被当成header和footer丢掉

liepinlxy · 2024-10-18T04:01:25Z

类似这种结构的后续可以支持么？

myhloli · 2024-10-18T04:04:49Z

我们应该没有类似简历这种类型的数据来训练，不知道能否提供一批脱敏的文档给我们微调呢？

liepinlxy · 2024-10-18T05:47:02Z

我这里也不太多，目前只有这两份，我看看能不能把这份简历转成docx，然后提供这两种简历类型的docx模板给你们

v3nus-py · 2024-10-24T22:46:55Z

to fix your trouble check this solution click
maybe this will solve your problem.

Provide feedback