序号 | 类别 |
---|---|
1 | 流程管理信息表 |
2 | 上诉案件移送函 |
3 | 原审法院判决书 |
4 | 上诉状正本 |
5 | 诉讼费缴纳情况 |
6 | 答辩状 |
7 | 诉讼参与人证明 |
8 | 证据材料 |
9 | 询问、调查笔录、证据交换笔录 |
10 | 判决书正本 |
11 | 送达回证 |
12 | 退卷函存根 |
13 | 备考表 |
14 | 案件流程表、立案呈批表、延审中止表 |
15 | 合议庭评议案件笔录 |
16 | 法律文书原件 |
17 | 备考表 |
- 提取图片:pdf -> image(jpg/png)
- 提取标题:投影直方图
- 标题预处理:旋转校正->汉字切分
- 文字预测:CNN单字预测
- 页面归类:使用预测出的标题和类别进行匹配
直接从pdf中提取图片,不要把整个pdf~~渲染~~成一张图片(这样会很慢)
使用投影直方图选取多个候选区域(title_region_proposal),后面将会对这些区域进行文字识别
投影直方图之前需要去除红色印记
投影直方图需要可视化展示
我们将会以不同的角度去生成行文字,并且以旋转角度为预测目标训练CNN网络
旋转校正后,使用投影直方图将行文字切分成单字
标题仅包含汉字,所以可以采用等宽的方式切割
我们会生成每张图片仅包含一个汉字的样本,进行单字预测
样本取值为常用的4000字
使用预测出的标题文字和预置类别文字进行匹配,完成分类任务