Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

AISHELL3某些数据生成梅尔频谱失败的问题 #31

Open
SoloPro-Git opened this issue Mar 28, 2022 · 4 comments
Open

AISHELL3某些数据生成梅尔频谱失败的问题 #31

SoloPro-Git opened this issue Mar 28, 2022 · 4 comments

Comments

@SoloPro-Git
Copy link

在aishell3数据中,有些wav文件通过librosa生成振幅向量的时候,振幅大小会超过1
如: SSB08870032.wav 文件的最大振幅为1.0116
导致运行wav2mel.py的时候会中断报错.

具体问题如下:
文件 /mtts/utils/stft.py 第248 、249行
为什么要对wav的振幅向量限制在[-1,1]呢 ?

@EricFuma
Copy link

EricFuma commented Mar 30, 2022

在aishell3数据中,有些wav文件通过librosa生成振幅向量的时候,振幅大小会超过1 如: SSB08870032.wav 文件的最大振幅为1.0116 导致运行wav2mel.py的时候会中断报错.

具体问题如下: 文件 /mtts/utils/stft.py 第248 、249行 为什么要对wav的振幅向量限制在[-1,1]呢 ?

猜测作者是否是对AIShell3数据集做了一些预处理,才使用脚本跑的,能否加个好友讨论讨论模型训练上的一些问题呢 wx:FGY_0214。
有同样的疑问期待作者的回复,另外作者开源的checkpoint是否是代码库中对应 config 配置跑出来的呢,还是有做过调整。

@longglecc
Copy link

我也遇到了相同的问题

@SoloPro-Git
Copy link
Author

我也遇到了相同的问题

我在这个项目复现不了作者的效果,mel频谱图一直是模糊的
后面转投paddlespeech那个项目了T_T

@bjr3ady
Copy link

bjr3ady commented Jun 30, 2022

Try set a proper sample_rate in config.yaml[fbank][sample_rate] like 48000

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

4 participants