AISHELL3某些数据生成梅尔频谱失败的问题 #31

SoloPro-Git · 2022-03-28T09:10:35Z

在aishell3数据中,有些wav文件通过librosa生成振幅向量的时候,振幅大小会超过1
如: SSB08870032.wav 文件的最大振幅为1.0116
导致运行wav2mel.py的时候会中断报错.

具体问题如下:
文件 /mtts/utils/stft.py 第248 、249行
为什么要对wav的振幅向量限制在[-1,1]呢 ?

EricFuma · 2022-03-30T01:49:43Z

在aishell3数据中,有些wav文件通过librosa生成振幅向量的时候,振幅大小会超过1 如: SSB08870032.wav 文件的最大振幅为1.0116 导致运行wav2mel.py的时候会中断报错.

具体问题如下: 文件 /mtts/utils/stft.py 第248 、249行为什么要对wav的振幅向量限制在[-1,1]呢 ?

猜测作者是否是对AIShell3数据集做了一些预处理，才使用脚本跑的，能否加个好友讨论讨论模型训练上的一些问题呢 wx：FGY_0214。
有同样的疑问期待作者的回复，另外作者开源的checkpoint是否是代码库中对应 config 配置跑出来的呢，还是有做过调整。

longglecc · 2022-06-24T02:54:44Z

我也遇到了相同的问题

SoloPro-Git · 2022-06-24T10:43:01Z

我也遇到了相同的问题

我在这个项目复现不了作者的效果，mel频谱图一直是模糊的
后面转投paddlespeech那个项目了T_T

bjr3ady · 2022-06-30T07:51:25Z

Try set a proper sample_rate in config.yaml[fbank][sample_rate] like 48000

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

AISHELL3某些数据生成梅尔频谱失败的问题 #31

AISHELL3某些数据生成梅尔频谱失败的问题 #31

SoloPro-Git commented Mar 28, 2022

EricFuma commented Mar 30, 2022 •

edited

Loading

longglecc commented Jun 24, 2022

SoloPro-Git commented Jun 24, 2022

bjr3ady commented Jun 30, 2022

AISHELL3某些数据生成梅尔频谱失败的问题 #31

AISHELL3某些数据生成梅尔频谱失败的问题 #31

Comments

SoloPro-Git commented Mar 28, 2022

EricFuma commented Mar 30, 2022 • edited Loading

longglecc commented Jun 24, 2022

SoloPro-Git commented Jun 24, 2022

bjr3ady commented Jun 30, 2022

EricFuma commented Mar 30, 2022 •

edited

Loading