VideoRAG: Geração Aprimorada por Recuperação sobre um Corpus de Vídeo
VideoRAG: Retrieval-Augmented Generation over Video Corpus
January 10, 2025
Autores: Soyeong Jeong, Kangsan Kim, Jinheon Baek, Sung Ju Hwang
cs.AI
Resumo
A Geração com Recuperação (RAG) é uma estratégia poderosa para lidar com o problema de gerar saídas factualmente incorretas em modelos fundamentais, recuperando conhecimento externo relevante para consultas e incorporando-o ao processo de geração. No entanto, as abordagens RAG existentes têm se concentrado principalmente em informações textuais, com alguns avanços recentes começando a considerar imagens, e em grande parte negligenciam vídeos, uma rica fonte de conhecimento multimodal capaz de representar eventos, processos e detalhes contextuais de forma mais eficaz do que qualquer outra modalidade. Enquanto alguns estudos recentes exploram a integração de vídeos no processo de geração de respostas, eles ou pré-definem vídeos associados à consulta sem recuperá-los de acordo com as consultas, ou convertem vídeos em descrições textuais sem aproveitar sua riqueza multimodal. Para lidar com isso, apresentamos o VideoRAG, um novo framework que não apenas recupera dinamicamente vídeos relevantes com base em sua relevância com as consultas, mas também utiliza informações visuais e textuais dos vídeos na geração de saídas. Além disso, para operacionalizar isso, nosso método gira em torno do recente avanço dos Grandes Modelos de Linguagem de Vídeo (LVLMs), que permitem o processamento direto de conteúdo de vídeo para representá-lo para recuperação e integração contínua dos vídeos recuperados em conjunto com as consultas. Validamos experimentalmente a eficácia do VideoRAG, demonstrando que ele é superior às baselines relevantes.
English
Retrieval-Augmented Generation (RAG) is a powerful strategy to address the
issue of generating factually incorrect outputs in foundation models by
retrieving external knowledge relevant to queries and incorporating it into
their generation process. However, existing RAG approaches have primarily
focused on textual information, with some recent advancements beginning to
consider images, and they largely overlook videos, a rich source of multimodal
knowledge capable of representing events, processes, and contextual details
more effectively than any other modality. While a few recent studies explore
the integration of videos in the response generation process, they either
predefine query-associated videos without retrieving them according to queries,
or convert videos into the textual descriptions without harnessing their
multimodal richness. To tackle these, we introduce VideoRAG, a novel framework
that not only dynamically retrieves relevant videos based on their relevance
with queries but also utilizes both visual and textual information of videos in
the output generation. Further, to operationalize this, our method revolves
around the recent advance of Large Video Language Models (LVLMs), which enable
the direct processing of video content to represent it for retrieval and
seamless integration of the retrieved videos jointly with queries. We
experimentally validate the effectiveness of VideoRAG, showcasing that it is
superior to relevant baselines.Summary
AI-Generated Summary