AV-Link: Caratteristiche di diffusione allineate temporalmente per la generazione audio-video cross-modale
AV-Link: Temporally-Aligned Diffusion Features for Cross-Modal Audio-Video Generation
December 19, 2024
Autori: Moayed Haji-Ali, Willi Menapace, Aliaksandr Siarohin, Ivan Skorokhodov, Alper Canberk, Kwot Sin Lee, Vicente Ordonez, Sergey Tulyakov
cs.AI
Abstract
Proponiamo AV-Link, un framework unificato per la generazione Video-to-Audio e Audio-to-Video che sfrutta le attivazioni dei modelli di diffusione video e audio congelati per un condizionamento cross-modale temporalmente allineato. La chiave del nostro framework è un Blocco di Fusione che consente lo scambio bidirezionale di informazioni tra i nostri modelli di diffusione video e audio di base attraverso un'operazione di autoattenzione temporalmente allineata. A differenza dei lavori precedenti che utilizzano estrattori di caratteristiche preaddestrati per altre attività per il segnale di condizionamento, AV-Link può sfruttare direttamente le caratteristiche ottenute dalla modalità complementare in un unico framework, cioè le caratteristiche video per generare audio, o le caratteristiche audio per generare video. Valutiamo ampiamente le nostre scelte progettuali e dimostriamo la capacità del nostro metodo di ottenere contenuti audiovisivi sincronizzati e di alta qualità, mostrando il suo potenziale per applicazioni nella generazione di media immersivi. Pagina del Progetto: snap-research.github.io/AVLink/
English
We propose AV-Link, a unified framework for Video-to-Audio and Audio-to-Video
generation that leverages the activations of frozen video and audio diffusion
models for temporally-aligned cross-modal conditioning. The key to our
framework is a Fusion Block that enables bidirectional information exchange
between our backbone video and audio diffusion models through a
temporally-aligned self attention operation. Unlike prior work that uses
feature extractors pretrained for other tasks for the conditioning signal,
AV-Link can directly leverage features obtained by the complementary modality
in a single framework i.e. video features to generate audio, or audio features
to generate video. We extensively evaluate our design choices and demonstrate
the ability of our method to achieve synchronized and high-quality audiovisual
content, showcasing its potential for applications in immersive media
generation. Project Page: snap-research.github.io/AVLink/Summary
AI-Generated Summary