Domando o Treinamento Conjunto Multimodal para uma Síntese de Vídeo para Áudio de Alta Qualidade
Taming Multimodal Joint Training for High-Quality Video-to-Audio Synthesis
December 19, 2024
Autores: Ho Kei Cheng, Masato Ishii, Akio Hayakawa, Takashi Shibuya, Alexander Schwing, Yuki Mitsufuji
cs.AI
Resumo
Propomos sintetizar áudio de alta qualidade e sincronizado, dado um vídeo e condições de texto opcionais, usando um novo framework de treinamento conjunto multimodal chamado MMAudio. Em contraste com o treinamento de única modalidade condicionado apenas a dados de vídeo (limitados), o MMAudio é treinado em conjunto com dados texto-áudio em maior escala e prontamente disponíveis para aprender a gerar amostras de áudio de alta qualidade alinhadas semanticamente. Adicionalmente, melhoramos a sincronia áudio-visual com um módulo de sincronização condicional que alinha as condições de vídeo com latentes de áudio no nível de quadro. Treinado com um objetivo de correspondência de fluxo, o MMAudio alcança um novo estado da arte de vídeo para áudio entre modelos públicos em termos de qualidade de áudio, alinhamento semântico e sincronização áudio-visual, enquanto possui um baixo tempo de inferência (1,23s para gerar um clipe de 8s) e apenas 157M parâmetros. O MMAudio também alcança surpreendentemente um desempenho competitivo na geração de texto para áudio, mostrando que o treinamento conjunto não prejudica o desempenho de única modalidade. O código e a demonstração estão disponíveis em: https://hkchengrex.github.io/MMAudio
English
We propose to synthesize high-quality and synchronized audio, given video and
optional text conditions, using a novel multimodal joint training framework
MMAudio. In contrast to single-modality training conditioned on (limited) video
data only, MMAudio is jointly trained with larger-scale, readily available
text-audio data to learn to generate semantically aligned high-quality audio
samples. Additionally, we improve audio-visual synchrony with a conditional
synchronization module that aligns video conditions with audio latents at the
frame level. Trained with a flow matching objective, MMAudio achieves new
video-to-audio state-of-the-art among public models in terms of audio quality,
semantic alignment, and audio-visual synchronization, while having a low
inference time (1.23s to generate an 8s clip) and just 157M parameters. MMAudio
also achieves surprisingly competitive performance in text-to-audio generation,
showing that joint training does not hinder single-modality performance. Code
and demo are available at: https://hkchengrex.github.io/MMAudioSummary
AI-Generated Summary