Skip to content

关键短语抽取技术简述

冬日新雨 edited this page May 23, 2020 · 2 revisions

Welcome to the chinese_keyphrase_extractor wiki!

关键短语抽取技术

步骤 方法
获取候选短语 1、N-grams
2、Chunking
3、词性标注+规则
4、语义角色标注SRL
计算权重 1、TFIDF
2、Textrank
3、主题模型权重
4、句向量+相似度计算
5、规则
排序 MMR过滤相似短语

各类技术点的特点

主题模型权重

  • 主题模型主要可以将文本中更能反映主题的词汇抽出来,如计算机领域文本中,抽取出“神经网络”、“LDA”等等,过滤掉“北京”、“2019年”等于主题无关的词汇。而时间地点在 TFIDF 等算法中可能权重较高

句向量+相似度计算

  • 主要计算文本的向量表示,以及候选短语的向量,然后计算余弦距离。但是根据试验效果看,候选短语中,较长的、偏重细节而非主旨的短语常被抽取出来,如“卷积网络平移策略”,相对而言是一个叫次要的短语。