第一期w1：知识提取

知识提取是要解决结构化数据生成的问题。但是广义上讲，知识提取是数据质量提升中的一环，各种提升数据质量的方法，都可以视为某种知识提取。学术上一般是用自然语言处理的方法，但在实践中通常是利用规则。

我们要熟悉的概念和工具有（假设大家已经熟悉了Python）

× 正则表达式

正则表达式（Regular Expression， regex）是字符串处理的基本功。数据爬取、数据清洗、实体提取、关系提取，都离不开regex。

× 中文分词和词性标注

（待续）

× 命名实体识别

（待续）

作业：综合分词工具和正则表达式提取邮件签名档

#KG小组北京一期成员github账号：

 姓名       账号

Provide feedback