-
Notifications
You must be signed in to change notification settings - Fork 331
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
TopicRank 实现 #23
Comments
获得关键词或者短语确实可以是一个很实用的新功能。 特别对于HarvestText来说:
不过目前我本人可能还不能抽出太多时间去实现这个功能,可以作为一个enhancement留到以后做。如果你有空的话,也欢迎贡献力量。 考虑实现的方案是提供一个通用的关键词抽取的函数,比如叫 |
好的,我和我的小伙伴 @gaowenxin95 先研究下 HarvestText 框架,再考虑下这个算法的实现。
我觉得OK的,设置一个
好的,实现后,到时候看下效果。 |
新版初步实现了这个接口,并评测了算法表现,目前仅提供tfidf和textrank REAMDE中相关的说明目前提供包括 示例(完整见example): # text为林俊杰《关键词》歌词
print("《关键词》里的关键词")
kwds = ht.extract_keywords(text, 5, method="jieba_tfidf")
print("jieba_tfidf", kwds)
kwds = ht.extract_keywords(text, 5, method="textrank")
print("textrank", kwds)
CSL.ipynb提供了不同算法,以及本库的实现与textrank4zh的在CSL数据集上的比较。由于仅有一个数据集且数据集对于以上算法都很不友好,表现仅供参考。
|
描述你想要的功能
能够提供具体例子更好
TextRank 得到的是摘要性的句子而非短语,TopicRank 可以实现这一点,这算一个新功能。
而且从 paper 的对比试验来看,短语抽取是比 TextRank 会更高些(作者对比可英文和法语)。
是否有自己想过的可能解决方案?
其实有解决方案了,见 pke,但是这个包实在是太多 bug 了
ZeroDivisionError: float division by zero
,这里gap
不做极端例子的处理,self.graph[i][j]['weight'] += 1.0 / gap
。其他想说的
也想看看项目开发者的想法,比如这个需求有没有必要做。
The text was updated successfully, but these errors were encountered: