高品質なビデオからオーディオへの統合のためのマルチモーダルな共同トレーニングの制御
Taming Multimodal Joint Training for High-Quality Video-to-Audio Synthesis
December 19, 2024
著者: Ho Kei Cheng, Masato Ishii, Akio Hayakawa, Takashi Shibuya, Alexander Schwing, Yuki Mitsufuji
cs.AI
要旨
我々は、新しいマルチモーダル共同トレーニングフレームワークMMAudioを用いて、ビデオとオプショナルなテキスト条件から高品質かつ同期したオーディオを合成することを提案します。単一モダリティのトレーニングとは異なり、(限られた)ビデオデータに依存するMMAudioは、より大規模で利用可能なテキストオーディオデータと共に共同でトレーニングされ、意味的に整合した高品質なオーディオサンプルを生成するために学習します。さらに、フレームレベルでビデオ条件をオーディオの潜在変数に整列させる条件付き同期モジュールにより、オーディオビジュアルの同期を向上させます。フロー一致目的でトレーニングされたMMAudioは、オーディオ品質、意味的整合性、オーディオビジュアル同期の観点で、公開モデルの中で新たなビデオからオーディオへの最先端技術を達成し、推論時間が短く(8秒のクリップを生成するのに1.23秒)、パラメータ数がわずか157Mであるという特徴があります。MMAudioはまた、テキストからオーディオへの生成において驚くほど競争力のあるパフォーマンスを達成し、共同トレーニングが単一モダリティのパフォーマンスを妨げないことを示しています。コードとデモは以下で入手可能です:https://hkchengrex.github.io/MMAudio
English
We propose to synthesize high-quality and synchronized audio, given video and
optional text conditions, using a novel multimodal joint training framework
MMAudio. In contrast to single-modality training conditioned on (limited) video
data only, MMAudio is jointly trained with larger-scale, readily available
text-audio data to learn to generate semantically aligned high-quality audio
samples. Additionally, we improve audio-visual synchrony with a conditional
synchronization module that aligns video conditions with audio latents at the
frame level. Trained with a flow matching objective, MMAudio achieves new
video-to-audio state-of-the-art among public models in terms of audio quality,
semantic alignment, and audio-visual synchronization, while having a low
inference time (1.23s to generate an 8s clip) and just 157M parameters. MMAudio
also achieves surprisingly competitive performance in text-to-audio generation,
showing that joint training does not hinder single-modality performance. Code
and demo are available at: https://hkchengrex.github.io/MMAudioSummary
AI-Generated Summary