Skip to content

中英文语料数据清洗及分布式分句分词预处理工作

Notifications You must be signed in to change notification settings

BarryZM/dataProcessor

Repository files navigation

代码主要是对较大型语料(约14G的语料)进行分布式清洗和分句分词操作

代码包括:

如何批量读取文件夹及子文件夹下的数据
如何将批量整合文件夹及子文件下的数据
匹配中英文里可能出现的所有特殊字符
匹配各类网址及网页标签
匹配希腊字母汉语拼音及繁体字等
利用PyLTP模块进行分句
去掉文本空行函数
计时装饰器以及代码进度条
添加分布式分词处理类文件

欢迎star和fork

About

中英文语料数据清洗及分布式分句分词预处理工作

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published