Skip to content

基于trie树结构一个分词组件,对词典有一定的依赖性,对“纯字母”、“纯数字”的字符串截断式匹配有过滤功能

Notifications You must be signed in to change notification settings

erliang20088/SkyLightAnalyzer

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

5 Commits
 
 
 
 

Repository files navigation

1、基于二分查找的trie树结构一个分词组件,对词典有一定的依赖性,对“纯字母”、“纯数字”的字符串截断式匹配有过滤功能

2、该版本的分词的准确率主要依赖于词典的完整性,并未做新词发现、人名地名的识别,但对“纯字母”和“纯数字”的
    截断式匹配进行了过滤。

3、词典词汇量为17.5万,trie树构建用时0.4s。

4、抽词速率为1150万字符/s,分词速率约为510万字符/s.

5、词典来源于ansj_seg分词,该分词的开发过程中主要参考了ansj_seg分词的数据结构与算法,在此表示感谢~

About

基于trie树结构一个分词组件,对词典有一定的依赖性,对“纯字母”、“纯数字”的字符串截断式匹配有过滤功能

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages