音频描述（Audio-to-Caption Generation）

1. Application introduction

Enter audio and prompt words for question and answer.

No training is need.
Integration with the moedel of whisper, chatglm.

2. Demo

example:

#audio2caption -- Audio to caption converter

from paddlemix.appflow import Appflow
import paddle
paddle.seed(1024)
task = Appflow(app="audio2caption", models=["whisper", "THUDM/chatglm-6b"])
audio_file = "./zh.wav"
prompt = (
    "描述这段话：{}."
)
result = task(audio=audio_file, prompt=prompt)['prompt']
print(result)
# 这段话表达了作者认为跑步最重要的好处之一是身体健康。作者认为,通过跑步,身体得到了良好的锻炼,身体健康得到了改善。作者还强调了跑步对身体健康的重要性,并认为这是最值得投资的运动之一。

Input Audio	Input Prompt	Output ASR	Output Text
zh.wav	"描述这段话."	"我认为跑步最重要的就是给我带来了身体健康"	这段话表达了作者认为跑步最重要的好处之一是身体健康。作者认为,通过跑步,身体得到了良好的锻炼,身体健康得到了改善。作者还强调了跑步对身体健康的重要性,并认为这是最值得投资的运动之一。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README.md

README.md

音频描述（Audio-to-Caption Generation）

1. Application introduction

2. Demo

Files

README.md

Latest commit

History

README.md

File metadata and controls

音频描述（Audio-to-Caption Generation）

1. Application introduction

2. Demo