Releases: breezedeus/CnOCR
Releases · breezedeus/CnOCR
Integrated latest PPOCRv4 models based on RapidOCR for faster inference
Update 2024.11.30:发布 V2.3.1
主要变更:
- 基于 RapidOCR 集成 PPOCRv4 最新版 OCR 模型,提供更多的模型选择
- 新增支持 PP-OCRv4 检测和识别模型,包括标准版和服务器版
- 新增多语言OCR模型支持:
- chinese_cht_PP-OCRv3:繁体中文识别
- japan_PP-OCRv3:日文识别
- korean_PP-OCRv3:韩文识别
- latin_PP-OCRv3:拉丁文识别
- arabic_PP-OCRv3:阿拉伯文识别
- en_PP-OCRv4:英文识别(v4版本)
- 修改读文件实现方式,支持 Windows 的中文路径
- 修复Bug:当使用多个进程时,transform_func 无法序列化
- 修复Bug:与 albumentations=1.4.* 兼容
Major Changes:
- Based on RapidOCR, integrate the latest version of PPOCRv4 OCR models, providing more model options
- Add support for PP-OCRv4 detection and recognition models, including standard and server versions
- Add multilingual OCR model support:
- chinese_cht_PP-OCRv3: Traditional Chinese recognition
- japan_PP-OCRv3: Japanese recognition
- korean_PP-OCRv3: Korean recognition
- latin_PP-OCRv3: Latin recognition
- arabic_PP-OCRv3: Arabic recognition
- en_PP-OCRv4: English recognition (v4 version)
- Modify the implementation of reading files to support Chinese paths on Windows
- Fix bug: When using multiple processes, the transform_func cannot be serialized
- Fix bug: Compatible with albumentations=1.4.*
Fix links of the docs
Update 2024.06.22:发布 V2.3.0.3
主要变更:
- 修复文档中 broken 的链接。
更改默认下载模型地址
主要变更:
- CN OSS 不可用了,默认下载模型地址由
CN
改为HF
。
bugfix: onnx providers for ppocr
Merge pull request #304 from breezedeus/dev fix: onnx providers for ppocr
New Models with Better accuracy
2023.12.24:发布 V2.3
主要变更:
- 重新训练了所有的模型,比上一版精度更高。
- 模型按使用场景分为 3 大类场景:
scene
:场景图片,适合识别一般拍照图片中的文字。doc
:文档图片,适合识别规则文档的截图图片,如书籍扫描件等。general
: 通用场景,适合图片无明显倾向的一般图片。
注意
⚠️ :以上说明仅供参考,具体选择模型时建议以实际效果为准。 - 加入了两个更大的系列模型:
*-densenet_lite_246-gru_base
:优先供 知识星球 CnOCR/CnSTD私享群 会员使用,一个月后会免费开源。*-densenet_lite_666-gru_large
:Pro 模型,购买后可使用。
use environment variable to determine the download source for models
add number-densenet_lite_666-gru_large
Merge pull request #283 from breezedeus/dev add number-densenet_lite_666-gru_large
一大波改动,如 加入了纯数字识别系列模型 `number-*`
主要变更:
- 加入了纯数字识别系列模型
number-*
(见 识别模型列表),可用于纯数字识别场景,如银行卡识别、身份证识别、硬币年份识别等; - 对各个包的新版做了接口适配,如
pytorch_lightning
、onnxruntime
、pillow
等; - 优化了训练过程使用的数据增强方式,并借鉴了Nougat 中的数据增强方法;
- 增加了对更大模型的支持,如
densenet-lite-666
、gru_large
等; - 以前的
*-gru
系列模型,现在也有 ONNX 版了; - 修复了一堆的bugs,如
val-complete_match-epoch
训练过程一直为0
等。
fix: export_to_onnx
Merge pull request #273 from breezedeus/dev fix: export_to_onnx
use hf_hub_download to download model files from huggingface
Merge pull request #261 from breezedeus/dev fix: model download from huggingface