다중 모달 제어를 사용한 비디오 안내 풀리 사운드 생성
Video-Guided Foley Sound Generation with Multimodal Controls
November 26, 2024
저자: Ziyang Chen, Prem Seetharaman, Bryan Russell, Oriol Nieto, David Bourgin, Andrew Owens, Justin Salamon
cs.AI
초록
비디오에 대한 사운드 효과를 생성하는 것은 종종 실제 소스와 크게 달라지는 예술적인 사운드 효과를 만들고 사운드 디자인에서 유연한 제어를 필요로 합니다. 이 문제를 해결하기 위해 우리는 MultiFoley를 소개합니다. 이 모델은 텍스트, 오디오 및 비디오를 통한 다중 모달 조건부를 지원하는 비디오 안내형 사운드 생성을 위해 설계되었습니다. 무음 비디오와 텍스트 프롬프트가 주어지면 MultiFoley를 사용하여 사용자는 깨끗한 사운드(예: 바람 소리 없이 스케이트보드 바퀴가 도는 소리)나 더 환상적인 사운드(예: 사자의 울음소리를 고양이의 야옹 소리로 만드는 것)를 만들 수 있습니다. MultiFoley는 또한 사용자가 조건부로 사운드 효과(SFX) 라이브러리나 부분 비디오에서 참조 오디오를 선택할 수 있도록 합니다. 우리 모델의 주요 독창성은 저품질 오디오를 가진 인터넷 비디오 데이터셋과 전문적인 SFX 녹음을 모두 합쳐 고품질, 전 대역폭(48kHz) 오디오 생성을 가능케 하는 공동 훈련에 있습니다. 자동 평가와 인간 연구를 통해 MultiFoley가 다양한 조건부 입력에 걸쳐 동기화된 고품질 사운드를 성공적으로 생성하고 기존 방법을 능가함을 입증합니다. 비디오 결과는 아래 프로젝트 페이지를 참조해주시기 바랍니다: https://ificl.github.io/MultiFoley/
English
Generating sound effects for videos often requires creating artistic sound
effects that diverge significantly from real-life sources and flexible control
in the sound design. To address this problem, we introduce MultiFoley, a model
designed for video-guided sound generation that supports multimodal
conditioning through text, audio, and video. Given a silent video and a text
prompt, MultiFoley allows users to create clean sounds (e.g., skateboard wheels
spinning without wind noise) or more whimsical sounds (e.g., making a lion's
roar sound like a cat's meow). MultiFoley also allows users to choose reference
audio from sound effects (SFX) libraries or partial videos for conditioning. A
key novelty of our model lies in its joint training on both internet video
datasets with low-quality audio and professional SFX recordings, enabling
high-quality, full-bandwidth (48kHz) audio generation. Through automated
evaluations and human studies, we demonstrate that MultiFoley successfully
generates synchronized high-quality sounds across varied conditional inputs and
outperforms existing methods. Please see our project page for video results:
https://ificl.github.io/MultiFoley/Summary
AI-Generated Summary