AV-링크: 시간적으로 정렬된 확산 특징을 활용한 교모달 오디오-비디오 생성
AV-Link: Temporally-Aligned Diffusion Features for Cross-Modal Audio-Video Generation
December 19, 2024
저자: Moayed Haji-Ali, Willi Menapace, Aliaksandr Siarohin, Ivan Skorokhodov, Alper Canberk, Kwot Sin Lee, Vicente Ordonez, Sergey Tulyakov
cs.AI
초록
우리는 AV-Link를 제안합니다. 이는 동기화된 교차 모달 조건부를 위해 동결된 비디오 및 오디오 확산 모델의 활성화를 활용하는 비디오에서 오디오로, 오디오에서 비디오로의 생성을 위한 통합된 프레임워크입니다. 우리 프레임워크의 핵심은 Fusion Block으로, 이를 통해 우리의 기본 비디오 및 오디오 확산 모델 간에 양방향 정보 교환을 가능하게 합니다. 이는 다른 작업을 위해 사전 학습된 특징 추출기를 조건부 신호로 사용하는 이전 작업과 달리, AV-Link는 동일한 프레임워크에서 상보적인 모달리티로부터 얻은 특징을 직접 활용할 수 있습니다. 즉, 비디오 특징을 생성하기 위해 오디오 특징을 활용하거나, 오디오 특징을 생성하기 위해 비디오 특징을 활용할 수 있습니다. 우리는 설계 선택 사항을 철저히 평가하고, 우리의 방법이 동기화되고 고품질의 오디오비주얼 콘텐츠를 달성할 수 있는 능력을 증명하며, 이를 통해 더불어 참여형 미디어 생성 응용 분야에 대한 잠재력을 보여줍니다. 프로젝트 페이지: snap-research.github.io/AVLink/
English
We propose AV-Link, a unified framework for Video-to-Audio and Audio-to-Video
generation that leverages the activations of frozen video and audio diffusion
models for temporally-aligned cross-modal conditioning. The key to our
framework is a Fusion Block that enables bidirectional information exchange
between our backbone video and audio diffusion models through a
temporally-aligned self attention operation. Unlike prior work that uses
feature extractors pretrained for other tasks for the conditioning signal,
AV-Link can directly leverage features obtained by the complementary modality
in a single framework i.e. video features to generate audio, or audio features
to generate video. We extensively evaluate our design choices and demonstrate
the ability of our method to achieve synchronized and high-quality audiovisual
content, showcasing its potential for applications in immersive media
generation. Project Page: snap-research.github.io/AVLink/