AV-Link: Recursos de Difusão Temporalmente Alinhados para Geração Cruzada de Áudio-Vídeo
AV-Link: Temporally-Aligned Diffusion Features for Cross-Modal Audio-Video Generation
December 19, 2024
Autores: Moayed Haji-Ali, Willi Menapace, Aliaksandr Siarohin, Ivan Skorokhodov, Alper Canberk, Kwot Sin Lee, Vicente Ordonez, Sergey Tulyakov
cs.AI
Resumo
Propomos o AV-Link, um framework unificado para geração de Vídeo-para-Áudio e Áudio-para-Vídeo que alavanca as ativações de modelos de difusão de vídeo e áudio congelados para condicionamento cruzado temporalmente alinhado entre modalidades. A chave do nosso framework é um Bloco de Fusão que possibilita a troca bidirecional de informações entre nossos modelos de difusão de vídeo e áudio base através de uma operação de autoatenção temporalmente alinhada. Ao contrário de trabalhos anteriores que utilizam extratores de características pré-treinados para outras tarefas para o sinal de condicionamento, o AV-Link pode alavancar diretamente características obtidas pela modalidade complementar em um único framework, ou seja, características de vídeo para gerar áudio, ou características de áudio para gerar vídeo. Avaliamos extensivamente nossas escolhas de design e demonstramos a capacidade de nosso método de alcançar conteúdo audiovisual sincronizado e de alta qualidade, destacando seu potencial para aplicações na geração de mídia imersiva. Página do Projeto: snap-research.github.io/AVLink/
English
We propose AV-Link, a unified framework for Video-to-Audio and Audio-to-Video
generation that leverages the activations of frozen video and audio diffusion
models for temporally-aligned cross-modal conditioning. The key to our
framework is a Fusion Block that enables bidirectional information exchange
between our backbone video and audio diffusion models through a
temporally-aligned self attention operation. Unlike prior work that uses
feature extractors pretrained for other tasks for the conditioning signal,
AV-Link can directly leverage features obtained by the complementary modality
in a single framework i.e. video features to generate audio, or audio features
to generate video. We extensively evaluate our design choices and demonstrate
the ability of our method to achieve synchronized and high-quality audiovisual
content, showcasing its potential for applications in immersive media
generation. Project Page: snap-research.github.io/AVLink/Summary
AI-Generated Summary