ビデオ言語モデルのための専門ビジュアルエンコーダーの統合
Unifying Specialized Visual Encoders for Video Language Models
January 2, 2025
著者: Jihoon Chung, Tyler Zhu, Max Gonzalez Saez-Diez, Juan Carlos Niebles, Honglu Zhou, Olga Russakovsky
cs.AI
要旨
最近、大規模言語モデル(LLM)の登場により、ビデオに洗練された推論能力をもたらすVideo Large Language Models(VideoLLMs)が登場しました。ただし、VideoLLMsは現在、すべての視覚処理に1つのビジョンエンコーダーを使用しており、LLMに伝達できる視覚情報の量と種類が制限されています。私たちの手法、MERV(Multi-Encoder Representation of Videos)は、代わりに複数の凍結ビジュアルエンコーダーを活用してビデオの統一された表現を作成し、VideoLLMに包括的な専門的な視覚知識を提供します。各エンコーダーからの特徴を時空的に整列させることで、私たちは幅広いオープンエンドおよび多肢選択のビデオ理解の質問に取り組み、従来の最先端の作品を上回る成績を収めます。MERVは、標準的なビデオ理解ベンチマーク全体で、Video-LLaVAよりも最大3.7%の精度が向上し、さらに優れたVideo-ChatGPTスコアを持っています。また、ゼロショット知覚テストの精度において、以前の最高記録であるSeViLAを2.2%上回ります。MERVは、最小限の追加パラメータを導入し、同等の単一エンコーダーメソッドよりも高速にトレーニングを行いながら、視覚処理を並列化します。最後に、MERVが各エンコーダーからドメイン知識を成功補足していることを定性的に証明します。私たちの結果は、包括的なビデオ理解のために複数のビジョンエンコーダーを活用する有望な方向を示しています。
English
The recent advent of Large Language Models (LLMs) has ushered sophisticated
reasoning capabilities into the realm of video through Video Large Language
Models (VideoLLMs). However, VideoLLMs currently rely on a single vision
encoder for all of their visual processing, which limits the amount and type of
visual information that can be conveyed to the LLM. Our method, MERV,
Multi-Encoder Representation of Videos, instead leverages multiple frozen
visual encoders to create a unified representation of a video, providing the
VideoLLM with a comprehensive set of specialized visual knowledge.
Spatio-temporally aligning the features from each encoder allows us to tackle a
wider range of open-ended and multiple-choice video understanding questions and
outperform prior state-of-the-art works. MERV is up to 3.7% better in accuracy
than Video-LLaVA across the standard suite video understanding benchmarks,
while also having a better Video-ChatGPT score. We also improve upon SeViLA,
the previous best on zero-shot Perception Test accuracy, by 2.2%. MERV
introduces minimal extra parameters and trains faster than equivalent
single-encoder methods while parallelizing the visual processing. Finally, we
provide qualitative evidence that MERV successfully captures domain knowledge
from each of its encoders. Our results offer promising directions in utilizing
multiple vision encoders for comprehensive video understanding.Summary
AI-Generated Summary