-
Notifications
You must be signed in to change notification settings - Fork 331
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
新词发现大规模预料处理速度好像比较慢? #14
Comments
分别回答两个问题:
算法基本是固定的,没有太多优化空间。可能的话,建议从数据层面优化速度,比如把这些语料按照行业/公司/岗位先分类,然后分别执行新词发现。因为算法的时间复杂度大约是平方级别的,分而治之可以提升效率,还可能为不同的维度提供不同的发现。
目前没有默认进行排序,不过这里为发现的新词提供了多个指标,可以按照需要选择合适的指标排序。 对于
其中第一列是词频,二三列是词语与上下文区别度的左右交叉熵,第四列是词语内部的聚合度,而第五列是上面几项指标的一个综合评分。 如要按照词频排序,则可以用 不过,也许设置一个默认的排序标准确实会更易于使用,我会考虑在后面更新一个默认排序标准上去。 |
我看了一下,跑起来是单进程的,可以考虑多进程+共享内存或者用C++多线程重写一下? |
配置 8G内存,跑5W条预料(简历招聘文本),用了大概2小时。
还有请问新词发现列出的新词是按指标排序好的么?是什么指标排序的?词频或者聚合度还是其他指标?
The text was updated successfully, but these errors were encountered: