Skip to content

Latest commit

 

History

History
172 lines (108 loc) · 4.77 KB

README.md

File metadata and controls

172 lines (108 loc) · 4.77 KB

CC BY 4.0

CnMFD_Dataset

CnMFD_Dataset 是利用合成技术生成的包含数学公式的中文文档数据集,可用于训练数学公式检测模型。CnMFD_Dataset 包含了不同字体的总共 17500 页文档,其中各字体对应的文档页数如下:

字体名称 文档页面数量
Adobe-SongTi-Std-L-2 2000
Arial Unicode 500
Fangsong 2000
Kaiti 2000
Microsoft Yahei 1000
msyh 1000
msyhbd 1000
PingFang 2000
Songti 2000
STHeiti Medium 2000
Zhongsong 2000

本项目中提供了 CnMFD_Dataset样例数据,完整数据集大小为 3.6G,下载地址为 CnMFD_Dataset @ Kaggle

几个效果示例图片:

中文MFD效果
中文MFD效果

文件格式说明

主目录下包含两个文件夹:

  • images:存储不同字体对应的文档图片;
  • labels:存储同名文档图片对应的数学公式标签(所在位置);
├── images
│   ├── Adobe-SongTi-Std-L-2
│   ├── Arial\ Unicode
│   ├── Fangsong
│   ├── Kaiti
│   ├── Microsoft\ Yahei
│   ├── PingFang
│   ├── STHeiti\ Medium
│   ├── Songti
│   ├── Zhongsong
│   ├── msyh
│   └── msyhbd
└── labels
    ├── Adobe-SongTi-Std-L-2
    ├── Arial\ Unicode
    ├── Fangsong
    ├── Kaiti
    ├── Microsoft\ Yahei
    ├── PingFang
    ├── STHeiti\ Medium
    ├── Songti
    ├── Zhongsong
    ├── msyh
    └── msyhbd

label文件中每行对应一个数学公式类别和所在位置,每列以空格分割:

<class_id> <xmin> <ymin> <xmax> <ymin> <xmax> <ymax> <xmin> <ymax>

其中 <class_id> 含义为:

  • 0:行内公式,即 embedding formula;
  • 1:独立行公式,即 isolated formula。

<xmin><xmax> 对应公式所在位置的最小和最大 x 值(已归一化:绝对值除以图片宽度),取值范围为 [0, 1];类似地, <ymin><ymax> 对应归一化后的最小和最大 y 值(已归一化:绝对值除以图片高度)。

可视化工具

可以使用提供的脚本 visualize.py 可视化效果。此脚本依赖Python 包 numpy, pillow, opencv。使用以下命令安装依赖包和运行脚本:

$ pip install numpy pillow opencv-python
$ python visualize.py -i examples/CnMFD_Dataset/images/PingFang/syndoc-page4.jpg -l examples/CnMFD_Dataset/labels/PingFang/syndoc-page4.txt -o
output-vis4.jpg

脚本 visualize.py 使用说明:

$ python visualize.py --help
usage: visualize.py [-h] [-i IMAGE_FP] [-l LABEL_FP] [-o OUTPUT_FP]

optional arguments:
  -h, --help            show this help message and exit
  -i IMAGE_FP, --image-fp IMAGE_FP
                        the file path of one page image
  -l LABEL_FP, --label-fp LABEL_FP
                        the label file path corresponding to the page image
  -o OUTPUT_FP, --output-fp OUTPUT_FP
                        the file path of the output image after labelling math formulas

致谢与引用

CnMFD_Dataset 中使用的文字来自公开的Wiki数据,数学公式抽取自 IBEM Mathematical Formula Detection Dataset ,感谢作者们。

本数据集遵循开源协议 Attribution 4.0 International (CC BY 4.0)

CC BY 4.0

使用 CnMFD_Dataset 请引用:

 @misc{breezedeus_2022,
	title={CnMFD_Dataset},
	url={https://www.kaggle.com/dsv/4752383},
	DOI={10.34740/KAGGLE/DSV/4752383},
	publisher={Kaggle},
	author={breezedeus},
	year={2022}
}

给作者来杯咖啡

开源不易,如果此项目对您有帮助,可以考虑 给作者来杯咖啡 ☕️


官方代码库:https://github.com/breezedeus/CnMFD_Dataset