Skip to content

actank/new_words_find

Repository files navigation

new_words_find

新词发现/未登录词识别:

采用凝固度和左右信息熵规则来过滤,识别出新词。

执行python oov.py进行未登录词识别

同义词挖掘:

分词过滤后,简单采用word2vec进行挖掘,取topk人工审核后作为同义词。

执行train.sh挖掘同义词

About

新词发现算法与同义词挖掘

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published