页码分类

类别

序号	类别
1	流程管理信息表
2	上诉案件移送函
3	原审法院判决书
4	上诉状正本
5	诉讼费缴纳情况
6	答辩状
7	诉讼参与人证明
8	证据材料
9	询问、调查笔录、证据交换笔录
10	判决书正本
11	送达回证
12	退卷函存根
13	备考表
14	案件流程表、立案呈批表、延审中止表
15	合议庭评议案件笔录
16	法律文书原件
17	备考表

计划采用的步骤

提取图片：pdf -> image(jpg/png)
提取标题：投影直方图
标题预处理：旋转校正->汉字切分
文字预测：CNN单字预测
页面归类：使用预测出的标题和类别进行匹配

详细说明

1. 提取图片

直接从pdf中提取图片，不要把整个pdf~~渲染~~成一张图片（这样会很慢）

2. 提取标题

使用投影直方图选取多个候选区域(title_region_proposal)，后面将会对这些区域进行文字识别

投影直方图之前需要去除红色印记

投影直方图需要可视化展示

3. 标题预处理

旋转校正

我们将会以不同的角度去生成行文字，并且以旋转角度为预测目标训练CNN网络

汉字切分

旋转校正后，使用投影直方图将行文字切分成单字

标题仅包含汉字，所以可以采用等宽的方式切割

4. 文字预测

我们会生成每张图片仅包含一个汉字的样本，进行单字预测

样本取值为常用的4000字

5. 页面归类

使用预测出的标题文字和预置类别文字进行匹配，完成分类任务

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

page_classification.md

page_classification.md

页码分类

类别

计划采用的步骤

详细说明

1. 提取图片

2. 提取标题

3. 标题预处理

旋转校正

汉字切分

4. 文字预测

5. 页面归类

Files

page_classification.md

Latest commit

History

page_classification.md

File metadata and controls

页码分类

类别

计划采用的步骤

详细说明

1. 提取图片

2. 提取标题

3. 标题预处理

旋转校正

汉字切分

4. 文字预测

5. 页面归类