Generazione di suoni Foley guidata da video con controlli multimodali
Video-Guided Foley Sound Generation with Multimodal Controls
November 26, 2024
Autori: Ziyang Chen, Prem Seetharaman, Bryan Russell, Oriol Nieto, David Bourgin, Andrew Owens, Justin Salamon
cs.AI
Abstract
La generazione di effetti sonori per video richiede spesso la creazione di effetti sonori artistici che si discostano significativamente dalle fonti della vita reale e un controllo flessibile nel design del suono. Per affrontare questo problema, presentiamo MultiFoley, un modello progettato per la generazione sonora guidata dai video che supporta il condizionamento multimodale attraverso testo, audio e video. Dato un video silenzioso e un prompt di testo, MultiFoley consente agli utenti di creare suoni puliti (ad esempio, le ruote dello skateboard che girano senza rumore del vento) o suoni più fantasiosi (ad esempio, far sembrare il ruggito di un leone come il miagolio di un gatto). MultiFoley consente anche agli utenti di scegliere audio di riferimento da librerie di effetti sonori (SFX) o video parziali per il condizionamento. Una novità chiave del nostro modello risiede nella sua formazione congiunta su set di dati video di internet con audio di bassa qualità e registrazioni SFX professionali, consentendo la generazione di audio ad alta qualità a piena larghezza di banda (48kHz). Attraverso valutazioni automatizzate e studi umani, dimostriamo che MultiFoley genera con successo suoni di alta qualità sincronizzati attraverso vari input condizionati e supera i metodi esistenti. Si prega di consultare la pagina del nostro progetto per i risultati video: https://ificl.github.io/MultiFoley/
English
Generating sound effects for videos often requires creating artistic sound
effects that diverge significantly from real-life sources and flexible control
in the sound design. To address this problem, we introduce MultiFoley, a model
designed for video-guided sound generation that supports multimodal
conditioning through text, audio, and video. Given a silent video and a text
prompt, MultiFoley allows users to create clean sounds (e.g., skateboard wheels
spinning without wind noise) or more whimsical sounds (e.g., making a lion's
roar sound like a cat's meow). MultiFoley also allows users to choose reference
audio from sound effects (SFX) libraries or partial videos for conditioning. A
key novelty of our model lies in its joint training on both internet video
datasets with low-quality audio and professional SFX recordings, enabling
high-quality, full-bandwidth (48kHz) audio generation. Through automated
evaluations and human studies, we demonstrate that MultiFoley successfully
generates synchronized high-quality sounds across varied conditional inputs and
outperforms existing methods. Please see our project page for video results:
https://ificl.github.io/MultiFoley/Summary
AI-Generated Summary