Using MusicGen to generate embeddings? #495

DuBose-Tuller · 2024-10-11T15:10:03Z

Has anyone used MusicGen to try and generate embeddings for audio/music datasets? Specifically the language model part, not just EnCodec. I have been trying to do this myself for a research project, and I am struggling to achieve any meaningful separation, even between dramatically different datasets.

nerusskikh · 2024-10-12T12:52:16Z

Generally, causal (left-to right, autoregressive) models don't make great embeddings cause the first tokens missing a lot of context due to attention structure. Masked language models are better suited for embeddings. That's the reason why many projects (including audiocraft) use T5 for text embeddings despite that larger and newer (but autoregressive) models are available.

Perhaps MagNET would be better for what you're trying to achieve since its non-autoregressive

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Using MusicGen to generate embeddings? #495

Using MusicGen to generate embeddings? #495

DuBose-Tuller commented Oct 11, 2024

nerusskikh commented Oct 12, 2024

Using MusicGen to generate embeddings? #495

Using MusicGen to generate embeddings? #495

Comments

DuBose-Tuller commented Oct 11, 2024

nerusskikh commented Oct 12, 2024