nlp-lang 这个项目是一个基本包.封装了大多数nlp项目中常用工具 工具 √ 词语标准化 √ tire树结构 X tf,idf统计 √ 文本断句 √ html标签清理 组件 √ 简繁体转换 √ 字符编码检测 √ bloomfilter √ 指纹去重 X 垃圾内容 X 文本相似度计算 √ 词共现统计 X 网页正文抽取