Exam-Question-Bank-Dataset-zh

通用考试题库数据集选择填空简答

处理流程

1.格式转换所有.doc 转为.docx 格式

2.格式对齐所有.docx文件转为markdown格式文件中的图片公式等需要解码的统一存在资源文件夹内

3.统计文件是否为试卷

4.统计试卷中是否还有答案

5.有答案的试卷进行切分-对齐

代码使用

0.环境安装

pip install pypandoc  #centos系统要提前安装好pandoc，pypandoc这个库只是一个封装调用api

1.centos 系统下,解压xxx.zip 数据集，解压含有中文字符的文件会乱码。请使用zip2.py

python zip2.py
zip_file_path = '../docx_math.zip'  # 替换为你的 zip 文件路径
dest_path = '../docx_math'  # 替换为你想解压到的目标文件夹路径
index_csv_path = 'index_to_filename.csv'  # 替换为你想存储索引到文件名映射的 CSV 文件路径

2.将所有.docx 文件转为 markdown格式静态资源保存在静态文件夹 python docx2markdown2.py

docx_folder = r'/www/dataset/MNBVC/docx_math' 
markdown_folder = r'/www/dataset/MNBVC/clear_data'  # 存放.md文件的文件夹路径
image_folder ="/www/dataset/MNBVC/image_folder"

3.统计文件是否为试卷 3.1 统计试卷词频分布 3.2 通过获得词频分布，对文档进行过过滤

一个实例 paper_markdown_text_classifier

python 统计是否为试卷.py  #打印输出词频获得分布

python 过滤试卷.py  #将结果存储到csv中
output_csv_with_keywords = 'rows_with_keywords.csv' # 保存含有关键字的行到新的CSV文件
output_csv_without_keywords = 'rows_without_keywords.csv' # 保存不含关键字的行到新的CSV文件

4.统计为试卷的文件中是否含有答案

python 判断是否有答案.py
output_csv_with_answers = 'rows_with_answers.csv' #含有答案的
output_csv_without_answers = 'rows_without_answers.csv' #不含有答案的

5.含有答案的试卷进行切分-对齐尝试

python 有答案试卷切分-对齐.py
 csv_file = 'rows_with_keywords.csv' #结果输出到 rows_with_keywords.csv

Name		Name	Last commit message	Last commit date
Latest commit History 32 Commits
data		data
notebook		notebook
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
clear.py		clear.py
docx2markdown.py		docx2markdown.py
docx2markdown2.py		docx2markdown2.py
paper_markdown_text_classifier.md		paper_markdown_text_classifier.md
paper_markdown_text_classifier.py		paper_markdown_text_classifier.py
process_doc_files.py		process_doc_files.py
requirements.txt		requirements.txt
zip2.py		zip2.py
判断是否有答案.py		判断是否有答案.py
有答案试卷切分-对齐.py		有答案试卷切分-对齐.py
统计.py		统计.py
统计是否为试卷.py		统计是否为试卷.py
过滤试卷.py		过滤试卷.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Exam-Question-Bank-Dataset-zh

处理流程

代码使用

About

Releases

Packages

Languages

License

Wzixiao/Exam-Question-Bank-Dataset-zh_mnbvc

Folders and files

Latest commit

History

Repository files navigation

Exam-Question-Bank-Dataset-zh

处理流程

代码使用

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages