VideoRAG: ビデオコーパス上の検索増強生成
VideoRAG: Retrieval-Augmented Generation over Video Corpus
January 10, 2025
著者: Soyeong Jeong, Kangsan Kim, Jinheon Baek, Sung Ju Hwang
cs.AI
要旨
Retrieval-Augmented Generation(RAG)は、基盤モデルにおける事実に反する出力を生成する問題に対処するための強力な戦略であり、クエリに関連する外部知識を取得し、それを生成プロセスに組み込むことでこれを実現します。ただし、既存のRAGアプローチは主にテキスト情報に焦点を当てており、最近の進展により画像を考慮し始めていますが、ビデオという豊富なマルチモーダルな知識源は、他のモダリティよりもイベント、プロセス、および文脈の詳細をより効果的に表現できるにも関わらず、ほとんど無視されています。最近の研究では、ビデオを応答生成プロセスに統合することを探求していますが、クエリに基づいてビデオを取得せずに事前に定義されたビデオを使用するか、ビデオをテキストの説明に変換するだけで、そのマルチモーダルな豊かさを活用していません。これらに対処するために、我々はVideoRAGという新しいフレームワークを導入します。このフレームワークは、クエリとの関連性に基づいて関連するビデオを動的に取得するだけでなく、ビデオの視覚情報とテキスト情報の両方を出力生成に活用します。さらに、これを実現するために、我々の手法は、ビデオコンテンツを直接処理して取得およびクエリと共に取得したビデオをシームレスに統合することを可能にするLarge Video Language Models(LVLMs)の最近の進歩に基づいています。我々はVideoRAGの効果を実験的に検証し、それが関連するベースラインよりも優れていることを示しています。
English
Retrieval-Augmented Generation (RAG) is a powerful strategy to address the
issue of generating factually incorrect outputs in foundation models by
retrieving external knowledge relevant to queries and incorporating it into
their generation process. However, existing RAG approaches have primarily
focused on textual information, with some recent advancements beginning to
consider images, and they largely overlook videos, a rich source of multimodal
knowledge capable of representing events, processes, and contextual details
more effectively than any other modality. While a few recent studies explore
the integration of videos in the response generation process, they either
predefine query-associated videos without retrieving them according to queries,
or convert videos into the textual descriptions without harnessing their
multimodal richness. To tackle these, we introduce VideoRAG, a novel framework
that not only dynamically retrieves relevant videos based on their relevance
with queries but also utilizes both visual and textual information of videos in
the output generation. Further, to operationalize this, our method revolves
around the recent advance of Large Video Language Models (LVLMs), which enable
the direct processing of video content to represent it for retrieval and
seamless integration of the retrieved videos jointly with queries. We
experimentally validate the effectiveness of VideoRAG, showcasing that it is
superior to relevant baselines.Summary
AI-Generated Summary