비디오 코퍼스 상에서 검색 보강 생성 (VideoRAG)
VideoRAG: Retrieval-Augmented Generation over Video Corpus
January 10, 2025
저자: Soyeong Jeong, Kangsan Kim, Jinheon Baek, Sung Ju Hwang
cs.AI
초록
검색 증강 생성 (RAG)은 재단 모델에서 사실적으로 부정확한 출력 생성 문제를 해결하기 위한 강력한 전략으로, 쿼리와 관련된 외부 지식을 검색하여 생성 프로세스에 통합함으로써 이를 대응합니다. 그러나 기존의 RAG 접근 방식은 주로 텍스트 정보에 초점을 맞추었으며, 최근의 일부 발전은 이미지를 고려하기 시작했지만, 비디오라는 다중 모달 지식의 풍부한 원천을 대부분 간과했습니다. 비디오는 사건, 과정, 및 문맥적 세부 사항을 다른 모달보다 효과적으로 나타낼 수 있습니다. 최근 연구 몇 가지는 응답 생성 프로세스에 비디오를 통합하는 것을 탐구하지만, 이들은 쿼리에 따라 비디오를 검색하는 것이 아니라 미리 정의된 쿼리와 관련된 비디오를 사용하거나 비디오를 텍스트 설명으로 변환하면서 다중 모달 풍부함을 활용하지 않습니다. 이러한 문제를 해결하기 위해 우리는 VideoRAG라는 혁신적인 프레임워크를 소개합니다. 이 프레임워크는 쿼리와의 관련성을 기반으로 관련 비디오를 동적으로 검색하는 것뿐만 아니라 비디오의 시각적 및 텍스트 정보를 출력 생성에 활용합니다. 더 나아가, 이를 운용화하기 위해 우리의 방법은 최근에 발전한 대규모 비디오 언어 모델 (LVLMs)을 중심으로 전개되었습니다. 이 모델은 비디오 콘텐츠를 직접 처리하여 검색을 위해 나타내고 검색된 비디오를 쿼리와 함께 원활하게 통합할 수 있습니다. 우리는 VideoRAG의 효과를 실험적으로 검증하여, 해당 방법이 관련 기준선보다 우수함을 입증하였습니다.
English
Retrieval-Augmented Generation (RAG) is a powerful strategy to address the
issue of generating factually incorrect outputs in foundation models by
retrieving external knowledge relevant to queries and incorporating it into
their generation process. However, existing RAG approaches have primarily
focused on textual information, with some recent advancements beginning to
consider images, and they largely overlook videos, a rich source of multimodal
knowledge capable of representing events, processes, and contextual details
more effectively than any other modality. While a few recent studies explore
the integration of videos in the response generation process, they either
predefine query-associated videos without retrieving them according to queries,
or convert videos into the textual descriptions without harnessing their
multimodal richness. To tackle these, we introduce VideoRAG, a novel framework
that not only dynamically retrieves relevant videos based on their relevance
with queries but also utilizes both visual and textual information of videos in
the output generation. Further, to operationalize this, our method revolves
around the recent advance of Large Video Language Models (LVLMs), which enable
the direct processing of video content to represent it for retrieval and
seamless integration of the retrieved videos jointly with queries. We
experimentally validate the effectiveness of VideoRAG, showcasing that it is
superior to relevant baselines.Summary
AI-Generated Summary