ChatPaper.aiChatPaper

비디오 RoPE: 좋은 비디오 로터리 위치 임베딩을 만드는 요소는 무엇인가요?

VideoRoPE: What Makes for Good Video Rotary Position Embedding?

February 7, 2025
저자: Xilin Wei, Xiaoran Liu, Yuhang Zang, Xiaoyi Dong, Pan Zhang, Yuhang Cao, Jian Tong, Haodong Duan, Qipeng Guo, Jiaqi Wang, Xipeng Qiu, Dahua Lin
cs.AI

초록

로터리 위치 임베딩(Rotary Position Embedding, RoPE) 및 그 변형은 장거리 문맥 능력으로 널리 사용되고 있지만, 복잡한 시공간 구조를 갖는 비디오로 1차원 RoPE를 확장하는 것은 여전히 열린 과제입니다. 본 연구는 RoPE를 비디오에 효과적으로 적응시키기 위한 네 가지 핵심 특성을 식별하는 포괄적인 분석을 먼저 소개합니다. 이는 이전 연구에서 충분히 고려되지 않았습니다. 우리의 분석 중 하나로, 우리는 주기적인 혼란 요소를 V-NIAH(Visual Needle-In-A-Haystack)에 추가하는 도전적인 V-NIAH-D(Visual Needle-In-A-Haystack with Distractors) 작업을 소개합니다. V-NIAH-D 작업은 이전 RoPE 변형이 적절한 시간 차원 할당이 없어 혼란 요소에 쉽게 오도됨을 보여줍니다. 우리의 분석을 기반으로, 우리는 공간-시간 관계를 보존하기 위해 설계된 3차원 구조의 VideoRoPE를 소개합니다. VideoRoPE는 주기적 진동을 완화하기 위한 저주파수 시간 할당, 공간 대칭 유지를 위한 대각선 레이아웃, 그리고 시간 및 공간 인덱싱을 분리하기 위한 조절 가능한 시간 간격을 특징으로 합니다. VideoRoPE는 장거리 비디오 검색, 비디오 이해 및 비디오 환각과 같은 다양한 하향 작업에서 일관되게 이전 RoPE 변형을 능가합니다. 우리의 코드는 https://github.com/Wiselnn570/VideoRoPE{https://github.com/Wiselnn570/VideoRoPE}에서 사용할 수 있습니다.
English
While Rotary Position Embedding (RoPE) and its variants are widely adopted for their long-context capabilities, the extension of the 1D RoPE to video, with its complex spatio-temporal structure, remains an open challenge. This work first introduces a comprehensive analysis that identifies four key characteristics essential for the effective adaptation of RoPE to video, which have not been fully considered in prior work. As part of our analysis, we introduce a challenging V-NIAH-D (Visual Needle-In-A-Haystack with Distractors) task, which adds periodic distractors into V-NIAH. The V-NIAH-D task demonstrates that previous RoPE variants, lacking appropriate temporal dimension allocation, are easily misled by distractors. Based on our analysis, we introduce VideoRoPE, with a 3D structure designed to preserve spatio-temporal relationships. VideoRoPE features low-frequency temporal allocation to mitigate periodic oscillations, a diagonal layout to maintain spatial symmetry, and adjustable temporal spacing to decouple temporal and spatial indexing. VideoRoPE consistently surpasses previous RoPE variants, across diverse downstream tasks such as long video retrieval, video understanding, and video hallucination. Our code will be available at https://github.com/Wiselnn570/VideoRoPE{https://github.com/Wiselnn570/VideoRoPE}.

Summary

AI-Generated Summary

PDF602February 10, 2025