Skip to content

Latest commit

 

History

History
11 lines (9 loc) · 676 Bytes

README.md

File metadata and controls

11 lines (9 loc) · 676 Bytes

作者:刘邵博 版本:v1 此词典为个人综合多本词典整合的一个大词典,词典共有词汇3669216个词汇。 词典结构为:词语\t词性\t词频。 词频是用ansj分词对270G新闻语料进行分词统计词频获得。 本人感觉需要特别说明的是词典整理过程中存在部分词汇无法确定是什么词性,对词性进行特别标注:nw和comb 1、词性nw表示本身不知道是什么词性。 2、词性comb表示通过ansj的nlp分词之后又被拆成了两个词。

官网:http://www.nlpcn.org