Tracktention: Nutzung von Punktverfolgung zur schnelleren und besseren Verarbeitung von Videos
Tracktention: Leveraging Point Tracking to Attend Videos Faster and Better
March 25, 2025
Autoren: Zihang Lai, Andrea Vedaldi
cs.AI
Zusammenfassung
Temporale Konsistenz ist entscheidend für die Videovorhersage, um sicherzustellen, dass die Ausgaben kohärent und frei von Artefakten sind. Traditionelle Methoden wie temporale Aufmerksamkeit und 3D-Faltung können bei signifikanten Objektbewegungen Schwierigkeiten haben und langfristige temporale Abhängigkeiten in dynamischen Szenen möglicherweise nicht erfassen. Um diese Lücke zu schließen, schlagen wir die Tracktention-Schicht vor, eine neuartige architektonische Komponente, die Bewegungsinformationen explizit durch Punktspuren, d.h. Sequenzen von entsprechenden Punkten über mehrere Frames hinweg, integriert. Durch die Einbeziehung dieser Bewegungsinformationen verbessert die Tracktention-Schicht die temporale Ausrichtung und bewältigt komplexe Objektbewegungen effektiv, wodurch konsistente Merkmalsrepräsentationen über die Zeit hinweg erhalten bleiben. Unser Ansatz ist recheneffizient und kann nahtlos in bestehende Modelle, wie Vision Transformers, mit minimalen Anpassungen integriert werden. Er kann verwendet werden, um bildbasierte Modelle auf den neuesten Stand der Videomodelle zu bringen, wobei er manchmal Modelle, die speziell für die Videovorhersage entwickelt wurden, übertrifft. Wir demonstrieren dies anhand der Videotiefenvorhersage und der Videokolorierung, bei denen Modelle, die mit der Tracktention-Schicht erweitert wurden, eine deutlich verbesserte temporale Konsistenz im Vergleich zu den Baselines aufweisen.
English
Temporal consistency is critical in video prediction to ensure that outputs
are coherent and free of artifacts. Traditional methods, such as temporal
attention and 3D convolution, may struggle with significant object motion and
may not capture long-range temporal dependencies in dynamic scenes. To address
this gap, we propose the Tracktention Layer, a novel architectural component
that explicitly integrates motion information using point tracks, i.e.,
sequences of corresponding points across frames. By incorporating these motion
cues, the Tracktention Layer enhances temporal alignment and effectively
handles complex object motions, maintaining consistent feature representations
over time. Our approach is computationally efficient and can be seamlessly
integrated into existing models, such as Vision Transformers, with minimal
modification. It can be used to upgrade image-only models to state-of-the-art
video ones, sometimes outperforming models natively designed for video
prediction. We demonstrate this on video depth prediction and video
colorization, where models augmented with the Tracktention Layer exhibit
significantly improved temporal consistency compared to baselines.Summary
AI-Generated Summary