Skip to content
/ odr Public

Optical Document Recognition. 一种基于视觉词汇的文本分类方法( https://www.jianshu.com/p/f774e273a883

Notifications You must be signed in to change notification settings

caoym/odr

Folders and files

NameName
Last commit message
Last commit date

Latest commit

author
caoym
Sep 24, 2017
896e8b4 · Sep 24, 2017

History

28 Commits
Sep 21, 2017
Sep 24, 2017
Sep 21, 2017
Jun 15, 2016
Sep 21, 2017
Sep 21, 2017
Sep 21, 2017
Sep 19, 2017

Repository files navigation

odr

Optical Document Recognition/光学文档识别

《一种基于视觉词汇的文本分类方法》配套代码

尝试的方向

基于视频词汇的文本图片分类 相对于“图片-(ocr)->文本->分类”的方法,省略ocr的步骤,可以降低整体复杂度,同时适应特殊文本的分类,比如数学公式、图表、化学方程式等。

正在尝试的方案

  • 视频词汇提取(同方案1)
  • 聚类多维度词汇
    • 计算多种特征,如使用不同分辨率计算hog、daisy
    • 对每种特征词汇使用MiniBatchKMeans聚类
  • 学习分类模型
    • 计算每类词汇的tf-idf并合并,PCA,训练svc

当前方案存在的问题

  • 需要尝试选取不同的特征
  • 训练和识别效率低下

已经尝试的方案1

  • 视频词汇提取
    • 拟合直线调整图片大小和方向
    • erode/erode 提取文本行
    • 根据列像素值变化曲线切割成文字,选取不同宽度进行多次切割(提取的词汇,在图像上看是有重叠的)
  • 聚类得到词汇
    • 计算hog、daisy特征
    • DBSCAN/MiniBatchKMeans 聚类
  • 学习分类模型
    • 计算tf-idf,PCA,训练svc

方案1存在的问题

  • DBSCAN聚类效果好,但样本数多以后聚类慢,内存消耗大,且无法分批学习
  • MiniBatchKMeans聚类效果差,高频但不相关的词汇容易被聚成一类

计划尝试的方案

About

Optical Document Recognition. 一种基于视觉词汇的文本分类方法( https://www.jianshu.com/p/f774e273a883

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages