Audio Gallery

Audio Gallery

Survey

Detection

Speech Translation

Audio Visual

Event Detection

CLIP-VAD: Exploiting Vision-Language Models for Voice Activity Detection, arXiv, 2410.14509, arxiv, pdf, cication: -1

Andrea Appiani, Cigdem Beyan

Emotion Recognition

Audio Separation

Vocal Track Separation with Encoder-Decoder Architecture

· (keras-io - keras-team)
ClearerVoice-Studio - modelscope
svoice - facebookresearch

Speaker Voice Separation using Neural Nets · (arxiv)
掌握音频分离黑科技，这几款工具让你的音频瞬间焕然一新！

· (vocal-separate - jianchang512) · (bilibili) · (ultimatevocalremovergui - Anjok07)

Diarization

3D-Speaker - modelscope
DiariZen - BUTSpeechFIT

Tutorials

Toolkits

Speaker Verification with ECAPA-TDNN embeddings on Voxceleb 🤗
wavesurfer - pengzhendong

Datasets

🌟 AudioSetCaps: An Enriched Audio-Caption Dataset using Automated Generation Pipeline with Large Audio and Language Models, arXiv, 2411.18953, arxiv, pdf, cication: -1

Jisheng Bai, Haohe Liu, Mou Wang, ..., Woon-Seng Gan, Jianfeng Chen · (AudioSetCaps - JishengBai)
LAION-DISCO-12M

· (huggingface)
The Expresso dataset is a high-quality (48kHz) expressive speech dataset that includes both expressively rendered read speech 🤗

· (speechbot.github)
SonicSim: A customizable simulation platform for speech processing in moving sound source scenarios, arXiv, 2410.01481, arxiv, pdf, cication: -1

Kai Li, Wendi Sang, Chang Zeng, ..., Guo Chen, Xiaolin Hu · (cslikai) · (SonicSim - JusperLee) · (mp.weixin.qq)
NCSSD dataset and collecting pipeline to handle TV shows. 🤗
电台直播
EmotionCaps: Enhancing Audio Captioning Through Emotion-Augmented Data Generation, arXiv, 2410.12028, arxiv, pdf, cication: -1

Mithun Manivannan, Vignesh Nethrapalli, Mark Cartwright

Products

Misc

versa - shinjiwlab
SUPERB is a collection of benchmarking resources to evaluate the capability of a universal shared representation for speech processing.
Vision Language Models Are Few-Shot Audio Spectrogram Classifiers, arXiv, 2411.12058, arxiv, pdf, cication: -1

Satvik Dixit, Laurie M. Heller, Chris Donahue
llama-recipes - meta-llama

An Open Source version of NotebookLM