ChatPaper.aiChatPaper

VideoRoPE: Was macht eine gute Video Rotary Position Embedding aus?

VideoRoPE: What Makes for Good Video Rotary Position Embedding?

February 7, 2025
Autoren: Xilin Wei, Xiaoran Liu, Yuhang Zang, Xiaoyi Dong, Pan Zhang, Yuhang Cao, Jian Tong, Haodong Duan, Qipeng Guo, Jiaqi Wang, Xipeng Qiu, Dahua Lin
cs.AI

Zusammenfassung

Obwohl Rotary Position Embedding (RoPE) und seine Varianten aufgrund ihrer Fähigkeit, lange Kontexte zu verarbeiten, weit verbreitet sind, bleibt die Erweiterung des 1D RoPE auf Videos mit ihrer komplexen raumzeitlichen Struktur eine offene Herausforderung. Diese Arbeit führt zunächst eine umfassende Analyse ein, die vier Schlüsselmerkmale identifiziert, die für die effektive Anpassung von RoPE an Videos wesentlich sind und die in früheren Arbeiten nicht vollständig berücksichtigt wurden. Im Rahmen unserer Analyse stellen wir eine anspruchsvolle V-NIAH-D (Visual Needle-In-A-Haystack mit Ablenkern) Aufgabe vor, die periodische Ablenker in V-NIAH integriert. Die V-NIAH-D Aufgabe zeigt, dass frühere RoPE-Varianten, die keine angemessene zeitliche Dimensionierung aufweisen, leicht von Ablenkern getäuscht werden. Basierend auf unserer Analyse stellen wir VideoRoPE vor, das über eine 3D-Struktur verfügt, die darauf ausgelegt ist, raumzeitliche Beziehungen zu bewahren. VideoRoPE zeichnet sich durch eine niedrigfrequente zeitliche Zuweisung zur Reduzierung periodischer Schwingungen, ein diagonales Layout zur Erhaltung der räumlichen Symmetrie und anpassbare zeitliche Abstände zur Entkopplung von zeitlicher und räumlicher Indizierung aus. VideoRoPE übertrifft konsistent frühere RoPE-Varianten in verschiedenen nachgelagerten Aufgaben wie der langen Videoabruf, dem Videoverständnis und der Videohalluzination. Unser Code wird verfügbar sein unter https://github.com/Wiselnn570/VideoRoPE.
English
While Rotary Position Embedding (RoPE) and its variants are widely adopted for their long-context capabilities, the extension of the 1D RoPE to video, with its complex spatio-temporal structure, remains an open challenge. This work first introduces a comprehensive analysis that identifies four key characteristics essential for the effective adaptation of RoPE to video, which have not been fully considered in prior work. As part of our analysis, we introduce a challenging V-NIAH-D (Visual Needle-In-A-Haystack with Distractors) task, which adds periodic distractors into V-NIAH. The V-NIAH-D task demonstrates that previous RoPE variants, lacking appropriate temporal dimension allocation, are easily misled by distractors. Based on our analysis, we introduce VideoRoPE, with a 3D structure designed to preserve spatio-temporal relationships. VideoRoPE features low-frequency temporal allocation to mitigate periodic oscillations, a diagonal layout to maintain spatial symmetry, and adjustable temporal spacing to decouple temporal and spatial indexing. VideoRoPE consistently surpasses previous RoPE variants, across diverse downstream tasks such as long video retrieval, video understanding, and video hallucination. Our code will be available at https://github.com/Wiselnn570/VideoRoPE{https://github.com/Wiselnn570/VideoRoPE}.

Summary

AI-Generated Summary

PDF652February 10, 2025