QuoTA: Abfrageorientierte Token-Zuweisung durch CoT-Abfrageentkopplung für das Verständnis langer Videos
QuoTA: Query-oriented Token Assignment via CoT Query Decouple for Long Video Comprehension
March 11, 2025
Autoren: Yongdong Luo, Wang Chen, Xiawu Zheng, Weizhong Huang, Shukang Yin, Haojia Lin, Chaoyou Fu, Jinfa Huang, Jiayi Ji, Jiebo Luo, Rongrong Ji
cs.AI
Zusammenfassung
Jüngste Fortschritte im Bereich des Verständnisses langer Videos mildern typischerweise visuelle Redundanz durch das Beschneiden visueller Tokens basierend auf der Aufmerksamkeitsverteilung. Während bestehende Methoden jedoch nachträgliches Beschneiden von Tokens mit geringer Reaktion in Decoder-Schichten verwenden, übersehen sie die semantische Korrelation auf Eingabeebene zwischen visuellen Tokens und Anweisungen (Query). In diesem Artikel schlagen wir QuoTA vor, ein ante-hoc, trainingsfreies Modul, das bestehende große Video-Sprachmodelle (LVLMs) für die visuelle Token-Zuweisung basierend auf einer query-orientierten Bewertung der Frame-Wichtigkeit erweitert. Die query-orientierte Token-Auswahl ist entscheidend, da sie die visuelle Verarbeitung mit aufgaben-spezifischen Anforderungen abstimmt und die Nutzung des Token-Budgets optimiert, während semantisch relevante Inhalte erhalten bleiben. Konkret (i) weist QuoTA strategisch Frame-Wichtigkeitswerte basierend auf der Query-Relevanz zu, ermöglicht eine einmalige visuelle Token-Zuweisung vor cross-modalen Interaktionen in Decoder-Schichten, (ii) entkoppeln wir die Query durch Chain-of-Thoughts-Argumentation, um eine präzisere Frame-Wichtigkeitsbewertung basierend auf LVLM zu erleichtern, und (iii) bietet QuoTA eine Plug-and-Play-Funktionalität, die sich auf bestehende LVLMs erstreckt. Umfangreiche experimentelle Ergebnisse zeigen, dass die Implementierung von QuoTA mit LLaVA-Video-7B eine durchschnittliche Leistungssteigerung von 3,2 % über sechs Benchmarks (einschließlich Video-MME und MLVU) erzielt, während innerhalb eines identischen visuellen Token-Budgets wie der Baseline gearbeitet wird. Die Codes sind unter https://github.com/MAC-AutoML/QuoTA quelloffen verfügbar.
English
Recent advances in long video understanding typically mitigate visual
redundancy through visual token pruning based on attention distribution.
However, while existing methods employ post-hoc low-response token pruning in
decoder layers, they overlook the input-level semantic correlation between
visual tokens and instructions (query). In this paper, we propose QuoTA, an
ante-hoc training-free modular that extends existing large video-language
models (LVLMs) for visual token assignment based on query-oriented frame-level
importance assessment. The query-oriented token selection is crucial as it
aligns visual processing with task-specific requirements, optimizing token
budget utilization while preserving semantically relevant content.
Specifically, (i) QuoTA strategically allocates frame-level importance scores
based on query relevance, enabling one-time visual token assignment before
cross-modal interactions in decoder layers, (ii) we decouple the query through
Chain-of-Thoughts reasoning to facilitate more precise LVLM-based frame
importance scoring, and (iii) QuoTA offers a plug-and-play functionality that
extends to existing LVLMs. Extensive experimental results demonstrate that
implementing QuoTA with LLaVA-Video-7B yields an average performance
improvement of 3.2% across six benchmarks (including Video-MME and MLVU) while
operating within an identical visual token budget as the baseline. Codes are
open-sourced at https://github.com/MAC-AutoML/QuoTA.Summary
AI-Generated Summary