SALOVA: Assistente Video a Lungo Termine Potenziato da Segmenti per il Recupero Mirato e l'Instradamento nell'Analisi Video a Lungo Termine
SALOVA: Segment-Augmented Long Video Assistant for Targeted Retrieval and Routing in Long-Form Video Analysis
November 25, 2024
Autori: Junho Kim, Hyunjun Kim, Hosu Lee, Yong Man Ro
cs.AI
Abstract
Nonostante i progressi nei Grandi Modelli Multimodali, applicarli a contenuti video lunghi e non tagliati rimane sfidante a causa delle limitazioni nella lunghezza del contesto e del notevole overhead di memoria. Questi vincoli spesso portano a una significativa perdita di informazioni e a una ridotta rilevanza nelle risposte del modello. Con la crescita esponenziale dei dati video sui siti web, comprendere video di lunga durata è cruciale per avanzare nell'intelligenza generalizzata. In questo articolo, presentiamo SALOVA: Segment-Augmented LOng Video Assistant, un nuovo framework video-LLM progettato per migliorare la comprensione di contenuti video lunghi attraverso un processo di recupero mirato. Affrontiamo due principali sfide per raggiungerlo: (i) Presentiamo il dataset SceneWalk, una collezione di alta qualità di 87,8K video lunghi, ognuno densamente sottotitolato a livello di segmento per consentire ai modelli di catturare la continuità della scena e mantenere un contesto descrittivo ricco. (ii) Sviluppiamo robusti design architetturali integrando un meccanismo di routing dinamico e un proiettore spazio-temporale per recuperare ed elaborare efficientemente segmenti video rilevanti in base alle query dell'utente. Il nostro framework attenua le limitazioni dei correnti video-LMM consentendo l'identificazione precisa e il recupero di segmenti video rilevanti in risposta alle query, migliorando così la rilevanza contestuale delle risposte generate. Attraverso estesi esperimenti, SALOVA dimostra una capacità migliorata nel processare video complessi di lunga durata, mostrando una significativa capacità di mantenere l'integrità contestuale attraverso sequenze estese.
English
Despite advances in Large Multi-modal Models, applying them to long and
untrimmed video content remains challenging due to limitations in context
length and substantial memory overhead. These constraints often lead to
significant information loss and reduced relevance in the model responses. With
the exponential growth of video data across web platforms, understanding
long-form video is crucial for advancing generalized intelligence. In this
paper, we introduce SALOVA: Segment-Augmented LOng Video Assistant, a novel
video-LLM framework designed to enhance the comprehension of lengthy video
content through targeted retrieval process. We address two main challenges to
achieve it: (i) We present the SceneWalk dataset, a high-quality collection of
87.8K long videos, each densely captioned at the segment level to enable models
to capture scene continuity and maintain rich descriptive context. (ii) We
develop robust architectural designs integrating dynamic routing mechanism and
spatio-temporal projector to efficiently retrieve and process relevant video
segments based on user queries. Our framework mitigates the limitations of
current video-LMMs by allowing for precise identification and retrieval of
relevant video segments in response to queries, thereby improving the
contextual relevance of the generated responses. Through extensive experiments,
SALOVA demonstrates enhanced capability in processing complex long-form videos,
showing significant capability to maintain contextual integrity across extended
sequences.Summary
AI-Generated Summary