SALOVA: Assistente Video a Lungo Termine Potenziato da Segmenti per il Recupero Mirato e l'Instradamento nell'Analisi Video a Lungo Termine

Abstract

Nonostante i progressi nei Grandi Modelli Multimodali, applicarli a contenuti video lunghi e non tagliati rimane sfidante a causa delle limitazioni nella lunghezza del contesto e del notevole overhead di memoria. Questi vincoli spesso portano a una significativa perdita di informazioni e a una ridotta rilevanza nelle risposte del modello. Con la crescita esponenziale dei dati video sui siti web, comprendere video di lunga durata è cruciale per avanzare nell'intelligenza generalizzata. In questo articolo, presentiamo SALOVA: Segment-Augmented LOng Video Assistant, un nuovo framework video-LLM progettato per migliorare la comprensione di contenuti video lunghi attraverso un processo di recupero mirato. Affrontiamo due principali sfide per raggiungerlo: (i) Presentiamo il dataset SceneWalk, una collezione di alta qualità di 87,8K video lunghi, ognuno densamente sottotitolato a livello di segmento per consentire ai modelli di catturare la continuità della scena e mantenere un contesto descrittivo ricco. (ii) Sviluppiamo robusti design architetturali integrando un meccanismo di routing dinamico e un proiettore spazio-temporale per recuperare ed elaborare efficientemente segmenti video rilevanti in base alle query dell'utente. Il nostro framework attenua le limitazioni dei correnti video-LMM consentendo l'identificazione precisa e il recupero di segmenti video rilevanti in risposta alle query, migliorando così la rilevanza contestuale delle risposte generate. Attraverso estesi esperimenti, SALOVA dimostra una capacità migliorata nel processare video complessi di lunga durata, mostrando una significativa capacità di mantenere l'integrità contestuale attraverso sequenze estese.

English

Despite advances in Large Multi-modal Models, applying them to long and untrimmed video content remains challenging due to limitations in context length and substantial memory overhead. These constraints often lead to significant information loss and reduced relevance in the model responses. With the exponential growth of video data across web platforms, understanding long-form video is crucial for advancing generalized intelligence. In this paper, we introduce SALOVA: Segment-Augmented LOng Video Assistant, a novel video-LLM framework designed to enhance the comprehension of lengthy video content through targeted retrieval process. We address two main challenges to achieve it: (i) We present the SceneWalk dataset, a high-quality collection of 87.8K long videos, each densely captioned at the segment level to enable models to capture scene continuity and maintain rich descriptive context. (ii) We develop robust architectural designs integrating dynamic routing mechanism and spatio-temporal projector to efficiently retrieve and process relevant video segments based on user queries. Our framework mitigates the limitations of current video-LMMs by allowing for precise identification and retrieval of relevant video segments in response to queries, thereby improving the contextual relevance of the generated responses. Through extensive experiments, SALOVA demonstrates enhanced capability in processing complex long-form videos, showing significant capability to maintain contextual integrity across extended sequences.

SALOVA: Assistente Video a Lungo Termine Potenziato da Segmenti per il Recupero Mirato e l'Instradamento nell'Analisi Video a Lungo Termine

SALOVA: Segment-Augmented Long Video Assistant for Targeted Retrieval and Routing in Long-Form Video Analysis

Abstract

Support