Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

音频文件规范问题 #304

Open
YUZHIWANG-bug opened this issue Nov 9, 2022 · 4 comments
Open

音频文件规范问题 #304

YUZHIWANG-bug opened this issue Nov 9, 2022 · 4 comments

Comments

@YUZHIWANG-bug
Copy link

作者您好,我在运行您给出的可以直接使用的代码也就是给出了预训练模型的项目时,使用我自己的音频进行预测时,出现了以下错误,
image
我怀疑时音频的长度问题,我之前已经通过ffmpeg进行了预处理,如下:
image
采样率应该没有问题,不知道是不是音频长度问题,如果是的话,可以麻烦作者告知一下怎么样可以规范化一下输入的音频,我尝试更改numpy数组的长度也不行,还希望大佬指教一下。非常感谢!

@YUZHIWANG-bug
Copy link
Author

补充:我使用了您提供的如下的方法转化了音频,但是还是出现上述错误
image

@nl8590687
Copy link
Owner

很明显,这是音频文件的时间长度过长导致的,可以参考ASRT项目文档上所述的内容,一条语音数据的最长时间长度当前限制为不能超过16秒,超过的话很容易导致模型的数据尺寸过大进而引发Memory不足的问题,尤其是在使用不太先进的GPU运行的时候。如果存在较长时间的音频,首先应当切割为一段段比较短的音频片段。

@YUZHIWANG-bug
Copy link
Author

作者您好,我按照您说的,切割了一段15秒的音频,转成了wav格式,但是还是显示之前的错误,甚至第一个数据更大了,很是奇怪,我将再试试缩短,感谢您的回复,谢谢!
image

@YUZHIWANG-bug
Copy link
Author

很明显,这是音频文件的时间长度过长导致的,可以参考ASRT项目文档上所述的内容,一条语音数据的最长时间长度当前限制为不能超过16秒,超过的话很容易导致模型的数据尺寸过大进而引发Memory不足的问题,尤其是在使用不太先进的GPU运行的时候。如果存在较长时间的音频,首先应当切割为一段段比较短的音频片段。

您好,我又尝试了一个8s的视频,我的转换过程如下:
image
最终得到一个wav文件,但是送入预测时,还是显示一下错误:
image
如果是时长问题的话,8s应该满足条件了,是不是我视频转音频的处理过程有误,还请您指教一下,感谢!

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants