ChatPaper.aiChatPaper

비디오 언어 모델을 위한 전문화된 시각 인코더 통합

Unifying Specialized Visual Encoders for Video Language Models

January 2, 2025
저자: Jihoon Chung, Tyler Zhu, Max Gonzalez Saez-Diez, Juan Carlos Niebles, Honglu Zhou, Olga Russakovsky
cs.AI

초록

최근 대형 언어 모델(LLMs)의 등장으로 비디오 영역에 정교한 추론 능력이 Video Large Language Models (VideoLLMs)를 통해 도입되었습니다. 그러나 현재 VideoLLMs는 시각 처리에 대한 모든 것에 대해 단일 비전 인코더에 의존하고 있어 LLM에 전달할 수 있는 시각 정보의 양과 유형을 제한합니다. 저희의 방법인 MERV(Multi-Encoder Representation of Videos)는 대신 여러 개의 고정된 비전 인코더를 활용하여 비디오의 통합 표현을 만들어 VideoLLM에 특화된 시각적 지식의 포괄적인 세트를 제공합니다. 각 인코더에서 특징을 시공간적으로 정렬함으로써 우리는 다양한 개방형 및 객관식 비디오 이해 질문에 대처하고 이전 최첨단 작업을 능가합니다. MERV는 표준 비디오 이해 벤치마크에서 Video-LLaVA보다 최대 3.7% 정확도가 더 높으며 더 좋은 Video-ChatGPT 점수를 기록합니다. 또한 우리는 zero-shot Perception Test 정확도에서 이전 최고인 SeViLA를 2.2% 개선합니다. MERV는 최소한의 추가 매개변수를 도입하고 동등한 단일 인코더 방법보다 더 빠르게 훈련되며 시각 처리를 병렬화합니다. 마지막으로 MERV가 각 인코더에서 도메인 지식을 성공적으로 포착한다는 질적 증거를 제시합니다. 우리의 결과는 포괄적인 비디오 이해를 위해 여러 비전 인코더를 활용하는 융합 방향에 대한 유망한 지표를 제공합니다.
English
The recent advent of Large Language Models (LLMs) has ushered sophisticated reasoning capabilities into the realm of video through Video Large Language Models (VideoLLMs). However, VideoLLMs currently rely on a single vision encoder for all of their visual processing, which limits the amount and type of visual information that can be conveyed to the LLM. Our method, MERV, Multi-Encoder Representation of Videos, instead leverages multiple frozen visual encoders to create a unified representation of a video, providing the VideoLLM with a comprehensive set of specialized visual knowledge. Spatio-temporally aligning the features from each encoder allows us to tackle a wider range of open-ended and multiple-choice video understanding questions and outperform prior state-of-the-art works. MERV is up to 3.7% better in accuracy than Video-LLaVA across the standard suite video understanding benchmarks, while also having a better Video-ChatGPT score. We also improve upon SeViLA, the previous best on zero-shot Perception Test accuracy, by 2.2%. MERV introduces minimal extra parameters and trains faster than equivalent single-encoder methods while parallelizing the visual processing. Finally, we provide qualitative evidence that MERV successfully captures domain knowledge from each of its encoders. Our results offer promising directions in utilizing multiple vision encoders for comprehensive video understanding.

Summary

AI-Generated Summary

PDF212January 3, 2025