训练纯日文200轮长音频，但是生成出来的语音末尾戛然而止，不自然 #580

DouerGan · 2024-03-05T04:18:00Z

我是把人物的音频录下来全部放到一个10min的wav音频中，不同语句之间有0,5s左右间隔，生成出来的语音末尾戛然而止，不自然，请问有什么建议可以改进吗
例如：知ってますか、桔梗の花言葉は忠実な愛ですよ

tmp6e8a65hh.mp4

shirubei · 2024-03-09T01:56:47Z

估计你这个是让没有再手动切分的，直接10分钟音频丢进去的吧。我训练一个中文的语音，刚刚发现这种情况下也有你说的问题，而且经常语音开头有个短暂的杂音。估计是因为系统自动切分，在上下两个句子中间停顿时间太少(比如，小于0.15s什么的，这个是我大概估计的值)的时候会出现这样的问题。
我的解决办法就是，用 Audacity 这款免费软件手动切分音频，切成2--10s长。然后看看每个音频的头尾是否有上述说的0.15s以上的空白区域，没有的话就在语音文件中找一小段空白的区域拷贝粘贴，凑成0.15s以上。这样就解决了这个问题。
如果觉得手动切分文件太麻烦，那你直接找到系统自动切分的目录(似乎是在 denoised_audio目录下，自己确认吧)，然后也是用 Audacity 这个软件逐个打开上述自动切分好的文件，看波形图左右是否有足够的空白区。没有就手动拷贝粘贴。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

训练纯日文200轮长音频，但是生成出来的语音末尾戛然而止，不自然 #580

训练纯日文200轮长音频，但是生成出来的语音末尾戛然而止，不自然 #580

DouerGan commented Mar 5, 2024 •

edited

Loading

shirubei commented Mar 9, 2024

训练纯日文200轮长音频，但是生成出来的语音末尾戛然而止，不自然 #580

训练纯日文200轮长音频，但是生成出来的语音末尾戛然而止，不自然 #580

Comments

DouerGan commented Mar 5, 2024 • edited Loading

shirubei commented Mar 9, 2024

DouerGan commented Mar 5, 2024 •

edited

Loading