VISTA: 비디오 시공간 증강을 통한 장기 및 고해상도 비디오 이해 향상
VISTA: Enhancing Long-Duration and High-Resolution Video Understanding by Video Spatiotemporal Augmentation
December 1, 2024
저자: Weiming Ren, Huan Yang, Jie Min, Cong Wei, Wenhu Chen
cs.AI
초록
현재 대형 다중 모달 모델(LMMs)은 장기간 또는 고해상도 비디오를 처리하고 이해하는 데 상당한 어려움을 겪고 있습니다. 이는 주로 고품질 데이터셋의 부족 때문입니다. 이 문제를 데이터 중심적 관점에서 해결하기 위해 우리는 VISTA를 제안합니다. VISTA는 기존 비디오 자막 데이터셋으로부터 장기간 및 고해상도 비디오 지시-추론 쌍을 합성하는 간단하면서도 효과적인 비디오 시공간 증강 프레임워크입니다. VISTA는 비디오를 공간적으로와 시간적으로 결합하여 새로운 합성 비디오를 만들어내며, 이에 따라 이러한 새로운 합성 비디오에 관련된 질문-답변 쌍을 생성합니다. 이 패러다임에 기반하여 우리는 일곱 가지 비디오 증강 방법을 개발하고, 장기간 및 고해상도 비디오 이해를 향상시키기 위한 비디오 지시-추론 데이터셋인 VISTA-400K를 선별합니다. 우리의 데이터에서 다양한 비디오 LMMs를 세밀 조정한 결과, 장기 비디오 이해를 위한 네 가지 어려운 벤치마크에서 평균적으로 3.3%의 향상을 얻었습니다. 더불어, 우리는 첫 번째 포괄적인 고해상도 비디오 이해 벤치마크 HRVideoBench를 소개하였으며, 여기에 우리의 세밀 조정된 모델들은 6.5%의 성능 향상을 달성하였습니다. 이러한 결과는 우리의 프레임워크의 효과성을 강조합니다.
English
Current large multimodal models (LMMs) face significant challenges in
processing and comprehending long-duration or high-resolution videos, which is
mainly due to the lack of high-quality datasets. To address this issue from a
data-centric perspective, we propose VISTA, a simple yet effective Video
Spatiotemporal Augmentation framework that synthesizes long-duration and
high-resolution video instruction-following pairs from existing video-caption
datasets. VISTA spatially and temporally combines videos to create new
synthetic videos with extended durations and enhanced resolutions, and
subsequently produces question-answer pairs pertaining to these newly
synthesized videos. Based on this paradigm, we develop seven video augmentation
methods and curate VISTA-400K, a video instruction-following dataset aimed at
enhancing long-duration and high-resolution video understanding. Finetuning
various video LMMs on our data resulted in an average improvement of 3.3%
across four challenging benchmarks for long-video understanding. Furthermore,
we introduce the first comprehensive high-resolution video understanding
benchmark HRVideoBench, on which our finetuned models achieve a 6.5%
performance gain. These results highlight the effectiveness of our framework.Summary
AI-Generated Summary