歌声音色转换模型,通过SoftVC内容编码器提取源音频语音特征,与F0同时输入VITS替换原本的文本输入达到歌声转换的效果。同时,更换声码器为 NSF HiFiGAN 解决断音问题
- 特征输入更换为 Content Vec
- 采样率统一使用44100hz
- 由于更改了hop size等参数以及精简了部分模型结构,推理所需显存占用大幅降低,4.0版本44khz显存占用甚至小于3.0版本的32khz
- 调整了部分代码结构
- 数据集制作、训练过程和3.0保持一致,但模型完全不通用,数据集也需要全部重新预处理
- 增加了可选项 1:vc模式自动预测音高f0,即转换语音时不需要手动输入变调key,男女声的调能自动转换,但仅限语音转换,该模式转换歌声会跑调
- 增加了可选项 2:通过kmeans聚类方案减小音色泄漏,即使得音色更加像目标音色
- contentvec :checkpoint_best_legacy_500.pt
- 放在
hubert
目录下
- 放在
- 预训练底模文件: G_0.pth 与 D_0.pth
- 放在
logs/44k
目录下 - 预训练底模训练数据集包含云灏 即霜 辉宇·星AI 派蒙 绫地宁宁,覆盖男女生常见音域,可以认为是相对通用的底模
- 放在
# 一键下载
# contentvec
# 由于作者提供的网盘没有直链,所以需要手动下载放在hubert目录
# G与D预训练模型:
wget -P logs/44k/ https://huggingface.co/innnky/sovits_pretrained/resolve/main/sovits4/G_0.pth
wget -P logs/44k/ https://huggingface.co/innnky/sovits_pretrained/resolve/main/sovits4/D_0.pth
仅需要以以下文件结构将数据集放入dataset_raw目录即可
dataset_raw
├───speaker0
│ ├───xxx1-xxx1.wav
│ ├───...
│ └───Lxx-0xx8.wav
└───speaker1
├───xx2-0xxx2.wav
├───...
└───xxx7-xxx007.wav
- 重采样至 44100hz
python resample.py
- 自动划分训练集 验证集 测试集 以及自动生成配置文件
python preprocess_flist_config.py
- 生成hubert与f0
python preprocess_hubert_f0.py
执行完以上步骤后 dataset 目录便是预处理完成的数据,可以删除dataset_raw文件夹了
python train.py -c configs/config.json -m 44k
注:训练时会自动清除老的模型,只保留最新3个模型,如果想防止过拟合需要自己手动备份模型记录点,或修改配置文件keep_ckpts 0为永不清除
截止此处,4.0使用方法(训练、推理)和3.0完全一致,没有任何变化(推理增加了命令行支持)
# 例
python inference_main.py -m "logs/44k/G_30400.pth" -c "configs/config.json" -n "君の知らない物語-src.wav" -t 0 -s "nen"
必填项部分
- -m, --model_path:模型路径。
- -c, --config_path:配置文件路径。
- -n, --clean_names:wav 文件名列表,放在 raw 文件夹下。
- -t, --trans:音高调整,支持正负(半音)。
- -s, --spk_list:合成目标说话人名称。
可选项部分:见下一节
- -a, --auto_predict_f0:语音转换自动预测音高,转换歌声时不要打开这个会严重跑调。
- -cm, --cluster_model_path:聚类模型路径,如果没有训练聚类则随便填。
- -cr, --cluster_infer_ratio:聚类方案占比,范围 0-1,若没有训练聚类模型则填 0 即可。
如果前面的效果已经满意,或者没看明白下面在讲啥,那后面的内容都可以忽略,不影响模型使用。(这些可选项影响比较小,可能在某些特定数据上有点效果,但大部分情况似乎都感知不太明显),
4.0模型训练过程会训练一个f0预测器,对于语音转换可以开启自动音高预测,如果效果不好也可以使用手动的,但转换歌声时请不要启用此功能!!!会严重跑调!!
- 在inference_main中设置auto_predict_f0为true即可
介绍:聚类方案可以减小音色泄漏,使得模型训练出来更像目标的音色(但其实不是特别明显),但是单纯的聚类方案会降低模型的咬字(会口齿不清)(这个很明显),本模型采用了融合的方式, 可以线性控制聚类方案与非聚类方案的占比,也就是可以手动在"像目标音色" 和 "咬字清晰" 之间调整比例,找到合适的折中点。
使用聚类前面的已有步骤不用进行任何的变动,只需要额外训练一个聚类模型,虽然效果比较有限,但训练成本也比较低
- 训练过程:
- 使用cpu性能较好的机器训练,据我的经验在腾讯云6核cpu训练每个speaker需要约4分钟即可完成训练
- 执行python cluster/train_cluster.py ,模型的输出会在 logs/44k/kmeans_10000.pt
- 推理过程:
- inference_main中指定cluster_model_path
- inference_main中指定cluster_infer_ratio,0为完全不使用聚类,1为只使用聚类,通常设置0.5即可
- 新建文件夹:
checkpoints
并打开 - 在
checkpoints
文件夹中新建一个文件夹作为项目文件夹,文件夹名为你的项目名称,比如aziplayer
- 将你的模型更名为
model.pth
,配置文件更名为config.json
,并放置到刚才创建的aziplayer
文件夹下 - 将 onnx_export.py 中
path = "NyaruTaffy"
的"NyaruTaffy"
修改为你的项目名称,path = "aziplayer"
- 运行 onnx_export.py
- 等待执行完毕,在你的项目文件夹下会生成一个
model.onnx
,即为导出的模型 - 我去除了所有的训练用函数和一切复杂的转置,一行都没有保留,因为我认为只有去除了这些东西,才知道你用的是Onnx