시각적 맥락 창 확장: 장영상 이해를 위한 새로운 시각
Visual Context Window Extension: A New Perspective for Long Video Understanding
September 30, 2024
저자: Hongchen Wei, Zhenzhong Chen
cs.AI
초록
대규모 다중 모달 모델(LMMs)은 짧은 비디오 이해 작업에서 놀라운 성능을 보여주었지만, 긴 비디오 이해 작업에 적용할 때 큰 어려움을 겪습니다. 반면에 대규모 언어 모델(LLMs)은 긴 텍스트를 모델링하는 뛰어난 능력을 보여줍니다. 기존 연구는 훈련 중에 긴 비디오-텍스트 쌍을 도입함으로써 이 문제에 대처하려고 노력해왔습니다. 그러나 이러한 방법은 상당한 계산 및 데이터 자원을 필요로 합니다. 본 논문에서는 문맥 창의 관점에서 긴 비디오 이해 작업의 도전 과제를 다루며, LMMs를 재훈련하지 않고도 긴 비디오 작업에 적용하는 것을 목표로 합니다. 우리는 먼저 사전 훈련된 LMMs가 긴 비디오 콘텐츠를 이해하는 데 어려움을 겪는 이유에 대해 철저한 분석을 실시하고, 시각 및 언어 모달리티 간의 불일치로 인해 시각 및 언어 토큰에 대한 다른 문맥 창이 발생하여 시각 토큰을 언어 문맥 창에 직접 확장하는 것이 어렵다는 것을 확인했습니다. 이를 바탕으로 우리는 시각 문맥 창을 확장하여 LMMs를 긴 비디오 이해 작업에 적용하고, 대규모 긴 비디오 데이터셋에 대한 재훈련이 필요 없도록 하는 것을 제안합니다. 긴 시퀀스로 인한 중요한 메모리 소비를 더 줄이기 위해, 우리는 프레임 임베딩의 공간 해상도를 선택적으로 조정하여 시각 토큰의 수를 줄이면서 중요한 공간 정보를 유지하는 점진적 풀링 추론 전략을 도입합니다. 여러 개의 긴 비디오 이해 벤치마크에서, 우리의 방법은 비디오 프레임 수가 증가함에 따라 일관되게 성능을 향상시킵니다. MLVU 벤치마크에서, 우리의 방법은 우리 모델 크기가 7B에 불과하더라도 GPT-4o를 능가합니다. 또한 256프레임 설정에서, 우리의 방법은 기준과 비교하여 메모리 사용량을 약 45% 줄이면서 성능 저하 없이 이루어냅니다.
English
Large Multimodal Models (LMMs) have demonstrated impressive performance in
short video understanding tasks but face great challenges when applied to long
video understanding. In contrast, Large Language Models (LLMs) exhibit
outstanding capabilities in modeling long texts. Existing work attempts to
address this issue by introducing long video-text pairs during training.
However, these approaches require substantial computational and data resources.
In this paper, we tackle the challenge of long video understanding from the
perspective of context windows, aiming to apply LMMs to long video tasks
without retraining on long video datasets. We first conduct an in-depth
analysis of why pretrained LMMs struggle to understand lengthy video content,
identifying that discrepancies between visual and language modalities lead to
different context windows for visual and language tokens, making it difficult
to directly extend the visual tokens to match the language context window.
Based on this, we propose to adapt LMMs for long video understanding tasks by
extending the visual context window, eliminating the need for retraining on
large scalelong video datasets. To further mitigate the significant memory
consumption caused by long sequences, we introduce a progressive pooling
inference strategy that selectively adjusts the spatial resolution of frame
embeddings, reducing the number of visual tokens while retaining important
spatial information. Across multiple long video understanding benchmarks, our
method consistently improves the performance as the number of video frames
increases. On the MLVU benchmark, our method outperforms GPT-4o, even though
our model size is only 7B. Additionally, in the 256-frame setting, our method
reduces memory usage by approximately 45% compared to the baseline, without
introducing any performance loss.Summary
AI-Generated Summary