VideoRAG: Generazione potenziata da recupero su corpus video
VideoRAG: Retrieval-Augmented Generation over Video Corpus
January 10, 2025
Autori: Soyeong Jeong, Kangsan Kim, Jinheon Baek, Sung Ju Hwang
cs.AI
Abstract
La Generazione potenziata da Recupero (RAG) è una strategia potente per affrontare il problema della generazione di output factualmente scorretti nei modelli di base recuperando conoscenze esterne rilevanti alle query e incorporandole nel processo di generazione. Tuttavia, gli approcci RAG esistenti si sono principalmente concentrati sulle informazioni testuali, con alcuni recenti progressi che iniziano a considerare le immagini, trascurando in gran parte i video, una ricca fonte di conoscenza multimodale in grado di rappresentare eventi, processi e dettagli contestuali in modo più efficace rispetto a qualsiasi altra modalità. Mentre alcuni recenti studi esplorano l'integrazione dei video nel processo di generazione delle risposte, essi o predefiniscono video associati alle query senza recuperarli in base alle query, o convertono i video in descrizioni testuali senza sfruttarne la ricchezza multimodale. Per affrontare questi aspetti, presentiamo VideoRAG, un nuovo framework che non solo recupera dinamicamente video rilevanti in base alla loro pertinenza alle query, ma utilizza anche informazioni visive e testuali dei video nella generazione dell'output. Inoltre, per operazionalizzare ciò, il nostro metodo si basa sui recenti progressi dei Grandi Modelli Linguistici Video (LVLM), che consentono l'elaborazione diretta dei contenuti video per rappresentarli per il recupero e l'integrazione senza soluzione di continuità dei video recuperati insieme alle query. Convalidiamo sperimentalmente l'efficacia di VideoRAG, dimostrando che è superiore ai baselines pertinenti.
English
Retrieval-Augmented Generation (RAG) is a powerful strategy to address the
issue of generating factually incorrect outputs in foundation models by
retrieving external knowledge relevant to queries and incorporating it into
their generation process. However, existing RAG approaches have primarily
focused on textual information, with some recent advancements beginning to
consider images, and they largely overlook videos, a rich source of multimodal
knowledge capable of representing events, processes, and contextual details
more effectively than any other modality. While a few recent studies explore
the integration of videos in the response generation process, they either
predefine query-associated videos without retrieving them according to queries,
or convert videos into the textual descriptions without harnessing their
multimodal richness. To tackle these, we introduce VideoRAG, a novel framework
that not only dynamically retrieves relevant videos based on their relevance
with queries but also utilizes both visual and textual information of videos in
the output generation. Further, to operationalize this, our method revolves
around the recent advance of Large Video Language Models (LVLMs), which enable
the direct processing of video content to represent it for retrieval and
seamless integration of the retrieved videos jointly with queries. We
experimentally validate the effectiveness of VideoRAG, showcasing that it is
superior to relevant baselines.Summary
AI-Generated Summary