VideoMind: Ein Chain-of-LoRA-Agent für die Langzeit-Videoanalyse
VideoMind: A Chain-of-LoRA Agent for Long Video Reasoning
March 17, 2025
Autoren: Ye Liu, Kevin Qinghong Lin, Chang Wen Chen, Mike Zheng Shou
cs.AI
Zusammenfassung
Videos, mit ihrer einzigartigen zeitlichen Dimension, erfordern ein präzises, fundiertes Verständnis, bei dem Antworten direkt mit visuellen, interpretierbaren Beweisen verknüpft sind. Trotz bedeutender Durchbrüche in den Denkfähigkeiten von Large Language Models bleibt multimodales Denken – insbesondere für Videos – weitgehend unerforscht. In dieser Arbeit stellen wir VideoMind vor, einen neuartigen Video-Sprache-Agenten, der für zeitlich fundiertes Video-Verständnis entwickelt wurde. VideoMind integriert zwei Schlüsselinnovationen: (i) Wir identifizieren wesentliche Fähigkeiten für zeitliches Video-Denken und entwickeln einen rollenbasierten agentenbasierten Workflow, der einen Planer zur Koordination verschiedener Rollen, einen Grounder zur zeitlichen Lokalisierung, einen Verifizierer zur Bewertung der Genauigkeit von Zeitintervallen und einen Antwortgeber für Frage-Antwort-Aufgaben umfasst. (ii) Um diese verschiedenen Rollen effizient zu integrieren, schlagen wir eine neuartige Chain-of-LoRA-Strategie vor, die nahtloses Rollenwechseln durch leichtgewichtige LoRA-Adapter ermöglicht, während der Overhead mehrerer Modelle vermieden wird, wodurch Effizienz und Flexibilität in Balance gehalten werden. Umfangreiche Experimente auf 14 öffentlichen Benchmarks zeigen, dass unser Agent state-of-the-art Leistung in verschiedenen Video-Verständnisaufgaben erreicht, darunter 3 in fundiertem Video-Frage-Antworten, 6 in zeitlicher Video-Lokalisierung und 5 in allgemeinem Video-Frage-Antworten, was seine Wirksamkeit bei der Weiterentwicklung von Video-Agenten und langfristigem zeitlichen Denken unterstreicht.
English
Videos, with their unique temporal dimension, demand precise grounded
understanding, where answers are directly linked to visual, interpretable
evidence. Despite significant breakthroughs in reasoning capabilities within
Large Language Models, multi-modal reasoning - especially for videos - remains
unexplored. In this work, we introduce VideoMind, a novel video-language agent
designed for temporal-grounded video understanding. VideoMind incorporates two
key innovations: (i) We identify essential capabilities for video temporal
reasoning and develop a role-based agentic workflow, including a planner for
coordinating different roles, a grounder for temporal localization, a verifier
to assess temporal interval accuracy, and an answerer for question-answering.
(ii) To efficiently integrate these diverse roles, we propose a novel
Chain-of-LoRA strategy, enabling seamless role-switching via lightweight LoRA
adaptors while avoiding the overhead of multiple models, thus balancing
efficiency and flexibility. Extensive experiments on 14 public benchmarks
demonstrate that our agent achieves state-of-the-art performance on diverse
video understanding tasks, including 3 on grounded video question-answering, 6
on video temporal grounding, and 5 on general video question-answering,
underscoring its effectiveness in advancing video agent and long-form temporal
reasoning.Summary
AI-Generated Summary