VLog: Video-Sprachmodelle durch generative Abrufung von Erzählungen Vokabular
VLog: Video-Language Models by Generative Retrieval of Narration Vocabulary
March 12, 2025
Autoren: Kevin Qinghong Lin, Mike Zheng Shou
cs.AI
Zusammenfassung
Menschliche Alltagsaktivitäten können prägnant als Abfolgen von Routineereignissen (z. B. das Ausschalten eines Weckers) in Videoströmen beschrieben werden, wodurch ein Ereignisvokabular entsteht. Inspiriert davon stellen wir VLog vor, ein neuartiges Framework für das Verständnis von Videos, das Videobeschreibungen als Vokabular definiert und damit über die typischen Subwort-Vokabulare in bestehenden generativen Video-Sprach-Modellen hinausgeht. Basierend auf dem schlanken Sprachmodell GPT-2 bietet VLog drei zentrale Innovationen: (i) Ein generatives Retrieval-Modell, das die komplexen Denkfähigkeiten von Sprachmodellen mit der effizienten Ähnlichkeitssuche des kontrastiven Retrievals verbindet. (ii) Ein hierarchisches Vokabular, das aus groß angelegten Videobeschreibungen mithilfe unseres Beschreibungspaar-Kodierungsalgorithmus abgeleitet wird und eine effiziente Indizierung spezifischer Ereignisse (z. B. das Schneiden einer Tomate) ermöglicht, indem breitere Szenarien (z. B. Küche) mit aussagekräftigen Postfixen (z. B. mit der linken Hand) identifiziert werden. (iii) Eine Vokabular-Aktualisierungsstrategie, die generative Modelle nutzt, um das Vokabular für neu auftretende Ereignisse während der Inferenz zu erweitern. Um unseren Ansatz zu validieren, führen wir VidCap-Eval ein, einen Entwicklungssatz, der prägnante Beschreibungen mit logischen Beziehungen (z. B. vorher und nachher) erfordert. Experimente auf EgoSchema, COIN und HiREST demonstrieren weiterhin die Effektivität von VLog und unterstreichen seine Fähigkeit, prägnante, kontextuell genaue und effiziente Beschreibungen zu generieren, was eine neue Perspektive auf das Verständnis von Videos bietet. Der Code ist unter https://github.com/showlab/VLog verfügbar.
English
Human daily activities can be concisely narrated as sequences of routine
events (e.g., turning off an alarm) in video streams, forming an event
vocabulary. Motivated by this, we introduce VLog, a novel video understanding
framework that define video narrations as vocabulary, going beyond the typical
subword vocabularies in existing generative video-language models. Built on the
lightweight language model GPT-2, VLog feature three key innovations: (i) A
generative retrieval model, marrying language model's complex reasoning
capabilities with contrastive retrieval's efficient similarity search. (ii) A
hierarchical vocabulary derived from large-scale video narrations using our
narration pair encoding algorithm, enabling efficient indexing of specific
events (e.g., cutting a tomato) by identifying broader scenarios (e.g.,
kitchen) with expressive postfixes (e.g., by the left hand). (iii) A vocabulary
update strategy leveraging generative models to extend the vocabulary for novel
events encountered during inference. To validate our approach, we introduce
VidCap-Eval, a development set requiring concise narrations with reasoning
relationships (e.g., before and after). Experiments on EgoSchema, COIN, and
HiREST further demonstrate the effectiveness of VLog, highlighting its ability
to generate concise, contextually accurate, and efficient narrations, offering
a novel perspective on video understanding. Codes are released at
https://github.com/showlab/VLog.Summary
AI-Generated Summary