Skip to content

Latest commit

 

History

History
55 lines (45 loc) · 1.7 KB

page_classification.md

File metadata and controls

55 lines (45 loc) · 1.7 KB

页码分类

类别

序号 类别
1 流程管理信息表
2 上诉案件移送函
3 原审法院判决书
4 上诉状正本
5 诉讼费缴纳情况
6 答辩状
7 诉讼参与人证明
8 证据材料
9 询问、调查笔录、证据交换笔录
10 判决书正本
11 送达回证
12 退卷函存根
13 备考表
14 案件流程表、立案呈批表、延审中止表
15 合议庭评议案件笔录
16 法律文书原件
17 备考表

计划采用的步骤

  1. 提取图片:pdf -> image(jpg/png)
  2. 提取标题:投影直方图
  3. 标题预处理:旋转校正->汉字切分
  4. 文字预测:CNN单字预测
  5. 页面归类:使用预测出的标题和类别进行匹配

详细说明

1. 提取图片

直接从pdf中提取图片,不要把整个pdf~~渲染~~成一张图片(这样会很慢)

2. 提取标题

使用投影直方图选取多个候选区域(title_region_proposal),后面将会对这些区域进行文字识别

投影直方图之前需要去除红色印记

投影直方图需要可视化展示

3. 标题预处理

旋转校正

我们将会以不同的角度去生成行文字,并且以旋转角度为预测目标训练CNN网络

汉字切分

旋转校正后,使用投影直方图将行文字切分成单字

标题仅包含汉字,所以可以采用等宽的方式切割

4. 文字预测

我们会生成每张图片仅包含一个汉字的样本,进行单字预测

样本取值为常用的4000字

5. 页面归类

使用预测出的标题文字和预置类别文字进行匹配,完成分类任务