TangoFlux: Geração de Texto para Áudio Super Rápida e Fiel com Correspondência de Fluxo e Otimização de Preferência Classificada por Clap.
TangoFlux: Super Fast and Faithful Text to Audio Generation with Flow Matching and Clap-Ranked Preference Optimization
December 30, 2024
Autores: Chia-Yu Hung, Navonil Majumder, Zhifeng Kong, Ambuj Mehrish, Rafael Valle, Bryan Catanzaro, Soujanya Poria
cs.AI
Resumo
Apresentamos o TangoFlux, um modelo generativo eficiente de Texto-para-Áudio (TTA) com 515M parâmetros, capaz de gerar até 30 segundos de áudio a 44.1kHz em apenas 3.7 segundos em uma única GPU A40. Um desafio chave na alinhamento de modelos TTA reside na dificuldade de criar pares de preferência, uma vez que o TTA carece de mecanismos estruturados como recompensas verificáveis ou respostas padrão disponíveis para Modelos de Linguagem Grandes (LLMs). Para lidar com isso, propomos a Otimização de Preferência Classificada por Aprendizado de Contraste (CRPO), um novo framework que gera e otimiza iterativamente dados de preferência para aprimorar o alinhamento do TTA. Demonstramos que o conjunto de dados de preferência de áudio gerado usando o CRPO supera as alternativas existentes. Com este framework, o TangoFlux alcança desempenho de ponta em benchmarks objetivos e subjetivos. Disponibilizamos todo o código e modelos em código aberto para apoiar pesquisas futuras na geração de TTA.
English
We introduce TangoFlux, an efficient Text-to-Audio (TTA) generative model
with 515M parameters, capable of generating up to 30 seconds of 44.1kHz audio
in just 3.7 seconds on a single A40 GPU. A key challenge in aligning TTA models
lies in the difficulty of creating preference pairs, as TTA lacks structured
mechanisms like verifiable rewards or gold-standard answers available for Large
Language Models (LLMs). To address this, we propose CLAP-Ranked Preference
Optimization (CRPO), a novel framework that iteratively generates and optimizes
preference data to enhance TTA alignment. We demonstrate that the audio
preference dataset generated using CRPO outperforms existing alternatives. With
this framework, TangoFlux achieves state-of-the-art performance across both
objective and subjective benchmarks. We open source all code and models to
support further research in TTA generation.Summary
AI-Generated Summary