-
Notifications
You must be signed in to change notification settings - Fork 68
关键短语抽取技术简述
冬日新雨 edited this page May 23, 2020
·
2 revisions
Welcome to the chinese_keyphrase_extractor wiki!
步骤 | 方法 |
---|---|
获取候选短语 | 1、N-grams 2、Chunking 3、词性标注+规则 4、语义角色标注SRL |
计算权重 | 1、TFIDF 2、Textrank 3、主题模型权重 4、句向量+相似度计算 5、规则 |
排序 | MMR过滤相似短语 |
- 主题模型主要可以将文本中更能反映主题的词汇抽出来,如计算机领域文本中,抽取出“神经网络”、“LDA”等等,过滤掉“北京”、“2019年”等于主题无关的词汇。而时间地点在 TFIDF 等算法中可能权重较高
- 主要计算文本的向量表示,以及候选短语的向量,然后计算余弦距离。但是根据试验效果看,候选短语中,较长的、偏重细节而非主旨的短语常被抽取出来,如“卷积网络平移策略”,相对而言是一个叫次要的短语。