SALOVA: 장형 비디오 분석에서 대상 검색 및 경로 지정을 위한 세그먼트 보강형 장비디오 어시스턴트
SALOVA: Segment-Augmented Long Video Assistant for Targeted Retrieval and Routing in Long-Form Video Analysis
November 25, 2024
저자: Junho Kim, Hyunjun Kim, Hosu Lee, Yong Man Ro
cs.AI
초록
대규모 다중 모달 모델의 발전에도 불구하고, 장시간 및 편집되지 않은 비디오 콘텐츠에 적용하는 것은 맥락 길이와 상당한 메모리 오버헤드 제약으로 인해 여전히 어려움을 겪고 있습니다. 이러한 제약으로 인해 모델 응답에서 중요한 정보 손실과 관련성 감소가 종종 발생합니다. 웹 플랫폼 전반에 걸쳐 비디오 데이터가 기하급수적으로 증가함에 따라 장편 비디오를 이해하는 것은 일반화된 지능을 발전시키는 데 중요합니다. 본 논문에서는 SALOVA(Segment-Augmented LOng Video Assistant)를 소개합니다. 이는 긴 비디오 콘텐츠의 이해를 향상시키기 위해 고안된 혁신적인 비디오-LLM 프레임워크입니다. 이를 실현하기 위해 두 가지 주요 도전에 대처합니다: (i) 우리는 SceneWalk 데이터셋을 제시합니다. 이는 각각이 밀도 높게 캡션 처리된 87.8K개의 장시간 비디오 컬렉션으로, 모델이 장면 연속성을 포착하고 풍부한 설명적 맥락을 유지할 수 있도록 합니다. (ii) 우리는 사용자 쿼리를 기반으로 관련 비디오 세그먼트를 효율적으로 검색하고 처리하기 위해 동적 라우팅 메커니즘과 시공간 프로젝터를 통합한 견고한 아키텍처 설계를 개발합니다. 우리의 프레임워크는 쿼리에 대한 응답으로 관련 비디오 세그먼트를 정확하게 식별하고 검색할 수 있도록 함으로써 현재의 비디오-LLM의 제약을 완화시킵니다. 이를 통해 생성된 응답의 맥락적 관련성을 향상시켜 복잡한 장편 비디오를 처리하는 능력을 향상시키는 것을 실험을 통해 입증합니다. SALOVA는 복잡한 장편 비디오를 처리하는 능력을 향상시키며, 연장된 시퀀스 전체에 걸쳐 맥락적 무결성을 유지하는 능력을 상당히 나타냅니다.
English
Despite advances in Large Multi-modal Models, applying them to long and
untrimmed video content remains challenging due to limitations in context
length and substantial memory overhead. These constraints often lead to
significant information loss and reduced relevance in the model responses. With
the exponential growth of video data across web platforms, understanding
long-form video is crucial for advancing generalized intelligence. In this
paper, we introduce SALOVA: Segment-Augmented LOng Video Assistant, a novel
video-LLM framework designed to enhance the comprehension of lengthy video
content through targeted retrieval process. We address two main challenges to
achieve it: (i) We present the SceneWalk dataset, a high-quality collection of
87.8K long videos, each densely captioned at the segment level to enable models
to capture scene continuity and maintain rich descriptive context. (ii) We
develop robust architectural designs integrating dynamic routing mechanism and
spatio-temporal projector to efficiently retrieve and process relevant video
segments based on user queries. Our framework mitigates the limitations of
current video-LMMs by allowing for precise identification and retrieval of
relevant video segments in response to queries, thereby improving the
contextual relevance of the generated responses. Through extensive experiments,
SALOVA demonstrates enhanced capability in processing complex long-form videos,
showing significant capability to maintain contextual integrity across extended
sequences.Summary
AI-Generated Summary