-
Notifications
You must be signed in to change notification settings - Fork 2.9k
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
避免重复的优化?出现过的句子不再重复。 #115
Comments
可以增加遇到重复句子换个句式表达,就是所谓的洗稿的方法,增加一个替换变量,这个变量树形存储,第一级节点是同一个意思的句子的编号,它的子节点是各种表达,或者干脆嵌套映射也一样 |
名人名言也有重复的,这个完全不需要重复。 |
重复使用一句话是正常行为,只是目前经常会出现一个段落里面重复两三句话,频次太高太密了。 |
这其实是个比较大的问题, 重复可以通过扩充语料库和换个抛色子的方法解决, 但我现在在想减小句子的粒度, 争取粒度更小. |
#107 考虑到该程序并不提供特别严肃的运用场合或者场景,简单用 list 来记录和跳过最近使用过的 8-10 种说法是否就足够呢? |
也分情况吧,我认为名人名言一般情况在同一篇文章中不应该重复。 |
记录最近几个确实也是个简洁的解决办法,我认为名人名言在整个文章中出现一次就够了,其他语句可以按你说的简单记录最近几次使用过的就先不使用。 |
我觉得一篇文章中长句子的重复率不要太高,短句可以多次重复,长句算是10字以上应该可以算是长句了。 |
目前的语料还比较少,可能无法支撑6000字不重复。
解决方式一:可以增加语料库,这样能保证在生成不是太多(比如10000字以内)的字数以内,都不会出现重复句子。
二:设置达到字数前不重复,这样能动态保证只要要求的生成字数小于语料库总字数,那么就不会重复!
The text was updated successfully, but these errors were encountered: