转换后音色跟着 source 而不是 target #97

Blakey-Gavin · 2024-10-21T03:14:01Z

您好，我将 ssl model 更换为中文版 wav2vec2 和 hubert，然后进行了 retrain 和 fine-tune，但不管哪种方式，转换出来的结果都是音色和 source 相似而不是 target。

请问可能的原因是什么，我应该怎么解决这个问题？

zxj329 · 2024-10-21T09:02:11Z

我也是，而且我还用了很多数据

Blakey-Gavin · 2024-10-21T14:49:55Z

我数据也有七八十小时。你找到原因了吗？我查了很久，不知道问题出在哪儿

zxj329 · 2024-10-22T04:29:15Z

我的数据有几千个小时都不行，还在找

Blakey-Gavin · 2024-10-22T08:08:41Z

好的，你要是找到原因了方便告知一下吗？非常感谢！

zxj329 · 2024-10-22T08:33:44Z

你看下你的mel-loss是多少，有没有下降

Blakey-Gavin · 2024-10-22T15:24:24Z

整体上看是下降的

zxj329 · 2024-10-22T16:04:02Z

我现在在做实验，你的数据是否每个人的声音数目差不多嘛？还是说有些人数据很多

Blakey-Gavin · 2024-10-23T01:54:24Z

这个我之前倒是没统计。统计出来如下：
小于 100：non
100-200：10 speakers
200-300：30 speakers
300-400：34 speakers
400-500：119 speakers
500-600：16 speakers
大于 600: non

utterances 数范围：139-506

zxj329 · 2024-10-23T02:28:10Z

你试试每个speaker在数目差不多呢

Blakey-Gavin · 2024-10-23T09:05:09Z

嗯嗯，等有时间的吧，现在还需要忙其它事情。

Provide feedback