ChatPaper.aiChatPaper

비디오 코퍼스 상에서 검색 보강 생성 (VideoRAG)

VideoRAG: Retrieval-Augmented Generation over Video Corpus

January 10, 2025
저자: Soyeong Jeong, Kangsan Kim, Jinheon Baek, Sung Ju Hwang
cs.AI

초록

검색 증강 생성 (RAG)은 재단 모델에서 사실적으로 부정확한 출력 생성 문제를 해결하기 위한 강력한 전략으로, 쿼리와 관련된 외부 지식을 검색하여 생성 프로세스에 통합함으로써 이를 대응합니다. 그러나 기존의 RAG 접근 방식은 주로 텍스트 정보에 초점을 맞추었으며, 최근의 일부 발전은 이미지를 고려하기 시작했지만, 비디오라는 다중 모달 지식의 풍부한 원천을 대부분 간과했습니다. 비디오는 사건, 과정, 및 문맥적 세부 사항을 다른 모달보다 효과적으로 나타낼 수 있습니다. 최근 연구 몇 가지는 응답 생성 프로세스에 비디오를 통합하는 것을 탐구하지만, 이들은 쿼리에 따라 비디오를 검색하는 것이 아니라 미리 정의된 쿼리와 관련된 비디오를 사용하거나 비디오를 텍스트 설명으로 변환하면서 다중 모달 풍부함을 활용하지 않습니다. 이러한 문제를 해결하기 위해 우리는 VideoRAG라는 혁신적인 프레임워크를 소개합니다. 이 프레임워크는 쿼리와의 관련성을 기반으로 관련 비디오를 동적으로 검색하는 것뿐만 아니라 비디오의 시각적 및 텍스트 정보를 출력 생성에 활용합니다. 더 나아가, 이를 운용화하기 위해 우리의 방법은 최근에 발전한 대규모 비디오 언어 모델 (LVLMs)을 중심으로 전개되었습니다. 이 모델은 비디오 콘텐츠를 직접 처리하여 검색을 위해 나타내고 검색된 비디오를 쿼리와 함께 원활하게 통합할 수 있습니다. 우리는 VideoRAG의 효과를 실험적으로 검증하여, 해당 방법이 관련 기준선보다 우수함을 입증하였습니다.
English
Retrieval-Augmented Generation (RAG) is a powerful strategy to address the issue of generating factually incorrect outputs in foundation models by retrieving external knowledge relevant to queries and incorporating it into their generation process. However, existing RAG approaches have primarily focused on textual information, with some recent advancements beginning to consider images, and they largely overlook videos, a rich source of multimodal knowledge capable of representing events, processes, and contextual details more effectively than any other modality. While a few recent studies explore the integration of videos in the response generation process, they either predefine query-associated videos without retrieving them according to queries, or convert videos into the textual descriptions without harnessing their multimodal richness. To tackle these, we introduce VideoRAG, a novel framework that not only dynamically retrieves relevant videos based on their relevance with queries but also utilizes both visual and textual information of videos in the output generation. Further, to operationalize this, our method revolves around the recent advance of Large Video Language Models (LVLMs), which enable the direct processing of video content to represent it for retrieval and seamless integration of the retrieved videos jointly with queries. We experimentally validate the effectiveness of VideoRAG, showcasing that it is superior to relevant baselines.

Summary

AI-Generated Summary

PDF676January 13, 2025