Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

训练纯日文200轮长音频,但是生成出来的语音末尾戛然而止,不自然 #580

Open
DouerGan opened this issue Mar 5, 2024 · 1 comment

Comments

@DouerGan
Copy link

DouerGan commented Mar 5, 2024

我是把人物的音频录下来全部放到一个10min的wav音频中,不同语句之间有0,5s左右间隔,生成出来的语音末尾戛然而止,不自然,请问有什么建议可以改进吗
例如:知ってますか、桔梗の花言葉は忠実な愛ですよ

tmp6e8a65hh.mp4
@shirubei
Copy link

shirubei commented Mar 9, 2024

估计你这个是让没有再手动切分的,直接10分钟音频丢进去的吧。我训练一个中文的语音,刚刚发现这种情况下也有你说的问题,而且经常语音开头有个短暂的杂音。估计是因为系统自动切分,在上下两个句子中间停顿时间太少(比如,小于0.15s什么的,这个是我大概估计的值)的时候会出现这样的问题。
我的解决办法就是,用 Audacity 这款免费软件手动切分音频,切成2--10s长。然后看看每个音频的头尾是否有上述说的0.15s以上的空白区域,没有的话就在语音文件中找一小段空白的区域拷贝粘贴,凑成0.15s以上。这样就解决了这个问题。
如果觉得手动切分文件太麻烦,那你直接找到系统自动切分的目录(似乎是在 denoised_audio目录下,自己确认吧),然后也是用 Audacity 这个软件逐个打开上述自动切分好的文件,看波形图左右是否有足够的空白区。没有就手动拷贝粘贴。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants