Domare l'addestramento congiunto multimodale per la sintesi video-audio di alta qualità
Taming Multimodal Joint Training for High-Quality Video-to-Audio Synthesis
December 19, 2024
Autori: Ho Kei Cheng, Masato Ishii, Akio Hayakawa, Takashi Shibuya, Alexander Schwing, Yuki Mitsufuji
cs.AI
Abstract
Proponiamo di sintetizzare audio di alta qualità e sincronizzato, dati video e condizioni testuali opzionali, utilizzando un nuovo framework di addestramento congiunto multimodale denominato MMAudio. Rispetto all'addestramento a singola modalità condizionato solo a dati video (limitati), MMAudio viene addestrato congiuntamente con dati testuali-audio su larga scala e facilmente disponibili per imparare a generare campioni audio di alta qualità semanticamente allineati. Inoltre, miglioriamo la sincronia audio-visiva con un modulo di sincronizzazione condizionale che allinea le condizioni video con latenti audio a livello di frame. Addestrato con un obiettivo di corrispondenza di flusso, MMAudio raggiunge un nuovo stato dell'arte da video ad audio tra i modelli pubblici in termini di qualità audio, allineamento semantico e sincronizzazione audio-visiva, pur avendo un tempo di inferenza basso (1,23s per generare un video di 8s) e solo 157M parametri. MMAudio raggiunge anche prestazioni sorprendentemente competitive nella generazione di testo in audio, dimostrando che l'addestramento congiunto non pregiudica le prestazioni a singola modalità. Il codice e la demo sono disponibili su: https://hkchengrex.github.io/MMAudio
English
We propose to synthesize high-quality and synchronized audio, given video and
optional text conditions, using a novel multimodal joint training framework
MMAudio. In contrast to single-modality training conditioned on (limited) video
data only, MMAudio is jointly trained with larger-scale, readily available
text-audio data to learn to generate semantically aligned high-quality audio
samples. Additionally, we improve audio-visual synchrony with a conditional
synchronization module that aligns video conditions with audio latents at the
frame level. Trained with a flow matching objective, MMAudio achieves new
video-to-audio state-of-the-art among public models in terms of audio quality,
semantic alignment, and audio-visual synchronization, while having a low
inference time (1.23s to generate an 8s clip) and just 157M parameters. MMAudio
also achieves surprisingly competitive performance in text-to-audio generation,
showing that joint training does not hinder single-modality performance. Code
and demo are available at: https://hkchengrex.github.io/MMAudioSummary
AI-Generated Summary