고품질 비디오에서 오디오로의 합성을 위한 다중 모달 공동 훈련의 통제
Taming Multimodal Joint Training for High-Quality Video-to-Audio Synthesis
December 19, 2024
저자: Ho Kei Cheng, Masato Ishii, Akio Hayakawa, Takashi Shibuya, Alexander Schwing, Yuki Mitsufuji
cs.AI
초록
우리는 새로운 다중 모달 공동 훈련 프레임워크 MMAudio를 사용하여 비디오와 선택적 텍스트 조건을 고려해 고품질 및 동기화된 오디오를 합성하는 것을 제안합니다. (제한된) 비디오 데이터에만 의존하는 단일 모달 훈련과 대조적으로, MMAudio는 더 큰 규모의 사용 가능한 텍스트-오디오 데이터와 함께 공동으로 훈련되어 의미론적으로 정렬된 고품질 오디오 샘플을 생성하는 방법을 배우게 됩니다. 게다가, 비디오 조건을 프레임 수준에서 오디오 잠재 변수와 정렬하는 조건부 동기화 모듈을 사용하여 오디오-시각 동기화를 개선합니다. 흐름 일치 목표로 훈련된 MMAudio는 오디오 품질, 의미론적 정렬 및 오디오-시각 동기화 측면에서 공개 모델 중에서 새로운 비디오-오디오 최첨단을 달성하며, 추론 시간이 낮고(8초 클립 생성에 1.23초) 파라미터 수가 157M에 불과합니다. MMAudio는 또한 의외로 경쟁력 있는 성능을 보여주며 텍스트-오디오 생성에서도 우수한 성과를 달성하며, 공동 훈련이 단일 모달 성능에 해를 끼치지 않음을 보여줍니다. 코드와 데모는 다음 링크에서 확인할 수 있습니다: https://hkchengrex.github.io/MMAudio
English
We propose to synthesize high-quality and synchronized audio, given video and
optional text conditions, using a novel multimodal joint training framework
MMAudio. In contrast to single-modality training conditioned on (limited) video
data only, MMAudio is jointly trained with larger-scale, readily available
text-audio data to learn to generate semantically aligned high-quality audio
samples. Additionally, we improve audio-visual synchrony with a conditional
synchronization module that aligns video conditions with audio latents at the
frame level. Trained with a flow matching objective, MMAudio achieves new
video-to-audio state-of-the-art among public models in terms of audio quality,
semantic alignment, and audio-visual synchronization, while having a low
inference time (1.23s to generate an 8s clip) and just 157M parameters. MMAudio
also achieves surprisingly competitive performance in text-to-audio generation,
showing that joint training does not hinder single-modality performance. Code
and demo are available at: https://hkchengrex.github.io/MMAudio