VLog: Video-Sprachmodelle durch generative Abrufung von Erzählungen Vokabular

Zusammenfassung

Menschliche Alltagsaktivitäten können prägnant als Abfolgen von Routineereignissen (z. B. das Ausschalten eines Weckers) in Videoströmen beschrieben werden, wodurch ein Ereignisvokabular entsteht. Inspiriert davon stellen wir VLog vor, ein neuartiges Framework für das Verständnis von Videos, das Videobeschreibungen als Vokabular definiert und damit über die typischen Subwort-Vokabulare in bestehenden generativen Video-Sprach-Modellen hinausgeht. Basierend auf dem schlanken Sprachmodell GPT-2 bietet VLog drei zentrale Innovationen: (i) Ein generatives Retrieval-Modell, das die komplexen Denkfähigkeiten von Sprachmodellen mit der effizienten Ähnlichkeitssuche des kontrastiven Retrievals verbindet. (ii) Ein hierarchisches Vokabular, das aus groß angelegten Videobeschreibungen mithilfe unseres Beschreibungspaar-Kodierungsalgorithmus abgeleitet wird und eine effiziente Indizierung spezifischer Ereignisse (z. B. das Schneiden einer Tomate) ermöglicht, indem breitere Szenarien (z. B. Küche) mit aussagekräftigen Postfixen (z. B. mit der linken Hand) identifiziert werden. (iii) Eine Vokabular-Aktualisierungsstrategie, die generative Modelle nutzt, um das Vokabular für neu auftretende Ereignisse während der Inferenz zu erweitern. Um unseren Ansatz zu validieren, führen wir VidCap-Eval ein, einen Entwicklungssatz, der prägnante Beschreibungen mit logischen Beziehungen (z. B. vorher und nachher) erfordert. Experimente auf EgoSchema, COIN und HiREST demonstrieren weiterhin die Effektivität von VLog und unterstreichen seine Fähigkeit, prägnante, kontextuell genaue und effiziente Beschreibungen zu generieren, was eine neue Perspektive auf das Verständnis von Videos bietet. Der Code ist unter https://github.com/showlab/VLog verfügbar.

English

Human daily activities can be concisely narrated as sequences of routine events (e.g., turning off an alarm) in video streams, forming an event vocabulary. Motivated by this, we introduce VLog, a novel video understanding framework that define video narrations as vocabulary, going beyond the typical subword vocabularies in existing generative video-language models. Built on the lightweight language model GPT-2, VLog feature three key innovations: (i) A generative retrieval model, marrying language model's complex reasoning capabilities with contrastive retrieval's efficient similarity search. (ii) A hierarchical vocabulary derived from large-scale video narrations using our narration pair encoding algorithm, enabling efficient indexing of specific events (e.g., cutting a tomato) by identifying broader scenarios (e.g., kitchen) with expressive postfixes (e.g., by the left hand). (iii) A vocabulary update strategy leveraging generative models to extend the vocabulary for novel events encountered during inference. To validate our approach, we introduce VidCap-Eval, a development set requiring concise narrations with reasoning relationships (e.g., before and after). Experiments on EgoSchema, COIN, and HiREST further demonstrate the effectiveness of VLog, highlighting its ability to generate concise, contextually accurate, and efficient narrations, offering a novel perspective on video understanding. Codes are released at https://github.com/showlab/VLog.

VLog: Video-Sprachmodelle durch generative Abrufung von Erzählungen Vokabular

VLog: Video-Language Models by Generative Retrieval of Narration Vocabulary

Zusammenfassung

Summary

Support

Support