VideoRAG: Abrufunterstützte Generierung über Videokorpus
VideoRAG: Retrieval-Augmented Generation over Video Corpus
January 10, 2025
Autoren: Soyeong Jeong, Kangsan Kim, Jinheon Baek, Sung Ju Hwang
cs.AI
Zusammenfassung
Die Retrieval-gestützte Generierung (RAG) ist eine leistungsstarke Strategie zur Bewältigung des Problems der Erzeugung faktisch inkorrekter Ausgaben in Grundlagenmodellen, indem externe Wissensquellen, die für Anfragen relevant sind, abgerufen und in den Generierungsprozess integriert werden. Allerdings haben bisherige RAG-Ansätze hauptsächlich den Fokus auf textuelle Informationen gelegt, wobei einige jüngste Fortschritte begonnen haben, Bilder zu berücksichtigen, während Videos, eine reichhaltige Quelle multimodalen Wissens, die Ereignisse, Prozesse und Kontextdetails effektiver als jede andere Modalität darstellen können, weitgehend übersehen wurden. Während einige wenige aktuelle Studien die Integration von Videos in den Antwortgenerierungsprozess untersuchen, definieren sie entweder vorab Videos, die mit Anfragen verbunden sind, ohne sie gemäß den Anfragen abzurufen, oder wandeln Videos in textuelle Beschreibungen um, ohne ihre multimodale Reichhaltigkeit zu nutzen. Um diesen Herausforderungen zu begegnen, stellen wir VideoRAG vor, ein neuartiges Rahmenwerk, das nicht nur dynamisch relevante Videos basierend auf ihrer Relevanz mit Anfragen abruft, sondern auch sowohl visuelle als auch textuelle Informationen von Videos in der Ausgabegenerierung nutzt. Darüber hinaus basiert unsere Methode auf dem jüngsten Fortschritt der Large Video Language Models (LVLMs), die die direkte Verarbeitung von Videoinhalten ermöglichen, um sie für das Retrieval darzustellen und die abgerufenen Videos gemeinsam mit Anfragen nahtlos zu integrieren. Wir validieren experimentell die Wirksamkeit von VideoRAG und zeigen, dass es überlegen gegenüber relevanten Basislinien ist.
English
Retrieval-Augmented Generation (RAG) is a powerful strategy to address the
issue of generating factually incorrect outputs in foundation models by
retrieving external knowledge relevant to queries and incorporating it into
their generation process. However, existing RAG approaches have primarily
focused on textual information, with some recent advancements beginning to
consider images, and they largely overlook videos, a rich source of multimodal
knowledge capable of representing events, processes, and contextual details
more effectively than any other modality. While a few recent studies explore
the integration of videos in the response generation process, they either
predefine query-associated videos without retrieving them according to queries,
or convert videos into the textual descriptions without harnessing their
multimodal richness. To tackle these, we introduce VideoRAG, a novel framework
that not only dynamically retrieves relevant videos based on their relevance
with queries but also utilizes both visual and textual information of videos in
the output generation. Further, to operationalize this, our method revolves
around the recent advance of Large Video Language Models (LVLMs), which enable
the direct processing of video content to represent it for retrieval and
seamless integration of the retrieved videos jointly with queries. We
experimentally validate the effectiveness of VideoRAG, showcasing that it is
superior to relevant baselines.Summary
AI-Generated Summary