ChatPaper.aiChatPaper

자기 회귀를 이용한 비디오용 시간적으로 정렬된 오디오

Temporally Aligned Audio for Video with Autoregression

September 20, 2024
저자: Ilpo Viertola, Vladimir Iashin, Esa Rahtu
cs.AI

초록

우리는 고해상도 비주얼 특징 추출기와 교차 모달 오디오-비주얼 특징 융합 전략을 사용하여 세밀한 비주얼 모션 이벤트를 포착하고 정확한 시간적 정렬을 보장하는 첫 번째 자기회귀 모델인 V-AURA를 소개합니다. 또한 우리는 고 오디오-비주얼 관련성을 갖는 벤치마크 데이터셋인 VisualSound를 제안합니다. VisualSound는 YouTube에서 추출된 자연스러운 샘플로 구성된 비디오 데이터셋 인 VGGSound를 기반으로 합니다. 데이터 정리 과정에서 우리는 청각적 이벤트가 시각적 이벤트와 정렬되지 않은 샘플을 제거합니다. V-AURA는 현재의 최첨단 모델들보다 우수한 시간적 정렬 및 의미적 관련성을 보여주며 비슷한 오디오 품질을 유지합니다. 코드, 샘플, VisualSound 및 모델은 https://v-aura.notion.site에서 제공됩니다.
English
We introduce V-AURA, the first autoregressive model to achieve high temporal alignment and relevance in video-to-audio generation. V-AURA uses a high-framerate visual feature extractor and a cross-modal audio-visual feature fusion strategy to capture fine-grained visual motion events and ensure precise temporal alignment. Additionally, we propose VisualSound, a benchmark dataset with high audio-visual relevance. VisualSound is based on VGGSound, a video dataset consisting of in-the-wild samples extracted from YouTube. During the curation, we remove samples where auditory events are not aligned with the visual ones. V-AURA outperforms current state-of-the-art models in temporal alignment and semantic relevance while maintaining comparable audio quality. Code, samples, VisualSound and models are available at https://v-aura.notion.site

Summary

AI-Generated Summary

PDF93November 16, 2024