TangoFlux:フローマッチングと拍手ランク付けされた好み最適化による、超高速で忠実なテキストから音声への生成
TangoFlux: Super Fast and Faithful Text to Audio Generation with Flow Matching and Clap-Ranked Preference Optimization
December 30, 2024
著者: Chia-Yu Hung, Navonil Majumder, Zhifeng Kong, Ambuj Mehrish, Rafael Valle, Bryan Catanzaro, Soujanya Poria
cs.AI
要旨
TangoFluxは、515Mのパラメータを持つ効率的なテキストから音声への生成モデルであり、単一のA40 GPU上でわずか3.7秒で44.1kHzの音声を最大30秒生成することができます。TTAモデルの整合性を図る上での主要な課題は、TTAには大規模言語モデル(LLMs)に利用可能な検証可能な報酬やゴールド標準の回答のような構造化されたメカニズムが欠如していることにあります。この課題に対処するために、私たちはCLAP-Ranked Preference Optimization(CRPO)を提案します。これは、TTAの整合性を向上させるために優先度データを反復的に生成および最適化する革新的なフレームワークです。CRPOを使用して生成された音声優先度データセットが既存の代替手段を凌駕することを示します。このフレームワークにより、TangoFluxは客観的および主観的ベンチマークの両方で最先端のパフォーマンスを達成します。私たちはすべてのコードとモデルをオープンソース化し、TTA生成のさらなる研究を支援します。
English
We introduce TangoFlux, an efficient Text-to-Audio (TTA) generative model
with 515M parameters, capable of generating up to 30 seconds of 44.1kHz audio
in just 3.7 seconds on a single A40 GPU. A key challenge in aligning TTA models
lies in the difficulty of creating preference pairs, as TTA lacks structured
mechanisms like verifiable rewards or gold-standard answers available for Large
Language Models (LLMs). To address this, we propose CLAP-Ranked Preference
Optimization (CRPO), a novel framework that iteratively generates and optimizes
preference data to enhance TTA alignment. We demonstrate that the audio
preference dataset generated using CRPO outperforms existing alternatives. With
this framework, TangoFlux achieves state-of-the-art performance across both
objective and subjective benchmarks. We open source all code and models to
support further research in TTA generation.Summary
AI-Generated Summary