QuoTA: Abfrageorientierte Token-Zuweisung durch CoT-Abfrageentkopplung für das Verständnis langer Videos

Zusammenfassung

Jüngste Fortschritte im Bereich des Verständnisses langer Videos mildern typischerweise visuelle Redundanz durch das Beschneiden visueller Tokens basierend auf der Aufmerksamkeitsverteilung. Während bestehende Methoden jedoch nachträgliches Beschneiden von Tokens mit geringer Reaktion in Decoder-Schichten verwenden, übersehen sie die semantische Korrelation auf Eingabeebene zwischen visuellen Tokens und Anweisungen (Query). In diesem Artikel schlagen wir QuoTA vor, ein ante-hoc, trainingsfreies Modul, das bestehende große Video-Sprachmodelle (LVLMs) für die visuelle Token-Zuweisung basierend auf einer query-orientierten Bewertung der Frame-Wichtigkeit erweitert. Die query-orientierte Token-Auswahl ist entscheidend, da sie die visuelle Verarbeitung mit aufgaben-spezifischen Anforderungen abstimmt und die Nutzung des Token-Budgets optimiert, während semantisch relevante Inhalte erhalten bleiben. Konkret (i) weist QuoTA strategisch Frame-Wichtigkeitswerte basierend auf der Query-Relevanz zu, ermöglicht eine einmalige visuelle Token-Zuweisung vor cross-modalen Interaktionen in Decoder-Schichten, (ii) entkoppeln wir die Query durch Chain-of-Thoughts-Argumentation, um eine präzisere Frame-Wichtigkeitsbewertung basierend auf LVLM zu erleichtern, und (iii) bietet QuoTA eine Plug-and-Play-Funktionalität, die sich auf bestehende LVLMs erstreckt. Umfangreiche experimentelle Ergebnisse zeigen, dass die Implementierung von QuoTA mit LLaVA-Video-7B eine durchschnittliche Leistungssteigerung von 3,2 % über sechs Benchmarks (einschließlich Video-MME und MLVU) erzielt, während innerhalb eines identischen visuellen Token-Budgets wie der Baseline gearbeitet wird. Die Codes sind unter https://github.com/MAC-AutoML/QuoTA quelloffen verfügbar.

English

Recent advances in long video understanding typically mitigate visual redundancy through visual token pruning based on attention distribution. However, while existing methods employ post-hoc low-response token pruning in decoder layers, they overlook the input-level semantic correlation between visual tokens and instructions (query). In this paper, we propose QuoTA, an ante-hoc training-free modular that extends existing large video-language models (LVLMs) for visual token assignment based on query-oriented frame-level importance assessment. The query-oriented token selection is crucial as it aligns visual processing with task-specific requirements, optimizing token budget utilization while preserving semantically relevant content. Specifically, (i) QuoTA strategically allocates frame-level importance scores based on query relevance, enabling one-time visual token assignment before cross-modal interactions in decoder layers, (ii) we decouple the query through Chain-of-Thoughts reasoning to facilitate more precise LVLM-based frame importance scoring, and (iii) QuoTA offers a plug-and-play functionality that extends to existing LVLMs. Extensive experimental results demonstrate that implementing QuoTA with LLaVA-Video-7B yields an average performance improvement of 3.2% across six benchmarks (including Video-MME and MLVU) while operating within an identical visual token budget as the baseline. Codes are open-sourced at https://github.com/MAC-AutoML/QuoTA.

QuoTA: Abfrageorientierte Token-Zuweisung durch CoT-Abfrageentkopplung für das Verständnis langer Videos

QuoTA: Query-oriented Token Assignment via CoT Query Decouple for Long Video Comprehension

Zusammenfassung

Summary

Support

Support