ViSpeak: Visuelles Instruktionsfeedback in Streaming-Videos
ViSpeak: Visual Instruction Feedback in Streaming Videos
March 17, 2025
Autoren: Shenghao Fu, Qize Yang, Yuan-Ming Li, Yi-Xing Peng, Kun-Yu Lin, Xihan Wei, Jian-Fang Hu, Xiaohua Xie, Wei-Shi Zheng
cs.AI
Zusammenfassung
Jüngste Fortschritte bei Large Multi-modal Models (LMMs) konzentrieren sich hauptsächlich auf das Offline-Video-Verständnis. Im Gegensatz dazu stellt das Streaming-Video-Verständnis aufgrund seiner zeitkritischen, omni-modalen und interaktiven Eigenschaften große Herausforderungen für aktuelle Modelle dar. In dieser Arbeit zielen wir darauf ab, das Streaming-Video-Verständnis aus einer neuen Perspektive zu erweitern und schlagen eine neuartige Aufgabe namens Visual Instruction Feedback vor, bei der Modelle visuelle Inhalte wahrnehmen und lernen sollten, Anweisungen daraus zu extrahieren. Zum Beispiel sollten Agenten, wenn Benutzer ihre Hände schwenken, die Geste erkennen und Gespräche mit Begrüßungsinformationen beginnen. Somit verbessert das Befolgen von Anweisungen in der visuellen Modalität die Benutzer-Agenten-Interaktionen erheblich. Um die Forschung zu fördern, definieren wir sieben Schlüsselunteraufgaben, die stark mit der visuellen Modalität zusammenhängen, und sammeln den ViSpeak-Instruct-Datensatz für das Training und das ViSpeak-Bench für die Bewertung. Darüber hinaus schlagen wir das ViSpeak-Modell vor, ein state-of-the-art LMM für das Streaming-Video-Verständnis mit GPT-4o-Level-Leistung auf verschiedenen Streaming-Video-Verständnis-Benchmarks. Nach dem Feinabstimmen auf unserem ViSpeak-Instruct-Datensatz ist ViSpeak mit grundlegenden Fähigkeiten zur visuellen Anweisungsrückmeldung ausgestattet und dient als solide Basis für zukünftige Forschungen.
English
Recent advances in Large Multi-modal Models (LMMs) are primarily focused on
offline video understanding. Instead, streaming video understanding poses great
challenges to recent models due to its time-sensitive, omni-modal and
interactive characteristics. In this work, we aim to extend the streaming video
understanding from a new perspective and propose a novel task named Visual
Instruction Feedback in which models should be aware of visual contents and
learn to extract instructions from them. For example, when users wave their
hands to agents, agents should recognize the gesture and start conversations
with welcome information. Thus, following instructions in visual modality
greatly enhances user-agent interactions. To facilitate research, we define
seven key subtasks highly relevant to visual modality and collect the
ViSpeak-Instruct dataset for training and the ViSpeak-Bench for evaluation.
Further, we propose the ViSpeak model, which is a SOTA streaming video
understanding LMM with GPT-4o-level performance on various streaming video
understanding benchmarks. After finetuning on our ViSpeak-Instruct dataset,
ViSpeak is equipped with basic visual instruction feedback ability, serving as
a solid baseline for future research.Summary
AI-Generated Summary