Generazione di suoni Foley guidata da video con controlli multimodali

Abstract

La generazione di effetti sonori per video richiede spesso la creazione di effetti sonori artistici che si discostano significativamente dalle fonti della vita reale e un controllo flessibile nel design del suono. Per affrontare questo problema, presentiamo MultiFoley, un modello progettato per la generazione sonora guidata dai video che supporta il condizionamento multimodale attraverso testo, audio e video. Dato un video silenzioso e un prompt di testo, MultiFoley consente agli utenti di creare suoni puliti (ad esempio, le ruote dello skateboard che girano senza rumore del vento) o suoni più fantasiosi (ad esempio, far sembrare il ruggito di un leone come il miagolio di un gatto). MultiFoley consente anche agli utenti di scegliere audio di riferimento da librerie di effetti sonori (SFX) o video parziali per il condizionamento. Una novità chiave del nostro modello risiede nella sua formazione congiunta su set di dati video di internet con audio di bassa qualità e registrazioni SFX professionali, consentendo la generazione di audio ad alta qualità a piena larghezza di banda (48kHz). Attraverso valutazioni automatizzate e studi umani, dimostriamo che MultiFoley genera con successo suoni di alta qualità sincronizzati attraverso vari input condizionati e supera i metodi esistenti. Si prega di consultare la pagina del nostro progetto per i risultati video: https://ificl.github.io/MultiFoley/

English

Generating sound effects for videos often requires creating artistic sound effects that diverge significantly from real-life sources and flexible control in the sound design. To address this problem, we introduce MultiFoley, a model designed for video-guided sound generation that supports multimodal conditioning through text, audio, and video. Given a silent video and a text prompt, MultiFoley allows users to create clean sounds (e.g., skateboard wheels spinning without wind noise) or more whimsical sounds (e.g., making a lion's roar sound like a cat's meow). MultiFoley also allows users to choose reference audio from sound effects (SFX) libraries or partial videos for conditioning. A key novelty of our model lies in its joint training on both internet video datasets with low-quality audio and professional SFX recordings, enabling high-quality, full-bandwidth (48kHz) audio generation. Through automated evaluations and human studies, we demonstrate that MultiFoley successfully generates synchronized high-quality sounds across varied conditional inputs and outperforms existing methods. Please see our project page for video results: https://ificl.github.io/MultiFoley/

Generazione di suoni Foley guidata da video con controlli multimodali

Video-Guided Foley Sound Generation with Multimodal Controls

Abstract

Summary

Support