Chapter-Llama: Segmentazione Efficiente in Capitoli per Video della Durata di un'Ora con LLM
Chapter-Llama: Efficient Chaptering in Hour-Long Videos with LLMs
March 31, 2025
Autori: Lucas Ventura, Antoine Yang, Cordelia Schmid, Gül Varol
cs.AI
Abstract
Affrontiamo il compito di suddivisione in capitoli di video, ovvero la partizione di una timeline video lunga in unità semantiche e la generazione di titoli corrispondenti per ciascun capitolo. Sebbene relativamente poco esplorata, la suddivisione automatica in capitoli ha il potenziale di abilitare una navigazione e un recupero dei contenuti efficienti nei video di lunga durata. In questo articolo, otteniamo prestazioni eccellenti nella suddivisione in capitoli per video della durata di un'ora affrontando in modo efficiente il problema nel dominio testuale con il nostro framework 'Chapter-Llama'. Nello specifico, sfruttiamo un modello linguistico di grandi dimensioni (LLM) preaddestrato con un ampio contesto di finestra, e forniamo come input (i) trascrizioni del parlato e (ii) didascalie che descrivono i fotogrammi video, insieme ai rispettivi timestamp. Data l'inefficienza di descrivere esaustivamente tutti i fotogrammi, proponiamo una strategia leggera di selezione dei fotogrammi guidata dal contenuto della trascrizione del parlato, e dimostriamo sperimentalmente vantaggi significativi. Addestriamo l'LLM a produrre timestamp per i confini dei capitoli, nonché titoli di capitoli in forma libera. Questo approccio semplice ma potente si adatta alla elaborazione di video della durata di un'ora in un singolo passaggio in avanti. I nostri risultati dimostrano miglioramenti sostanziali (ad esempio, 45,3 contro 26,7 punteggio F1) rispetto allo stato dell'arte sul recente benchmark VidChapters-7M. Per promuovere ulteriori ricerche, rilasciamo il nostro codice e i modelli sulla pagina del progetto.
English
We address the task of video chaptering, i.e., partitioning a long video
timeline into semantic units and generating corresponding chapter titles. While
relatively underexplored, automatic chaptering has the potential to enable
efficient navigation and content retrieval in long-form videos. In this paper,
we achieve strong chaptering performance on hour-long videos by efficiently
addressing the problem in the text domain with our 'Chapter-Llama' framework.
Specifically, we leverage a pretrained large language model (LLM) with large
context window, and feed as input (i) speech transcripts and (ii) captions
describing video frames, along with their respective timestamps. Given the
inefficiency of exhaustively captioning all frames, we propose a lightweight
speech-guided frame selection strategy based on speech transcript content, and
experimentally demonstrate remarkable advantages. We train the LLM to output
timestamps for the chapter boundaries, as well as free-form chapter titles.
This simple yet powerful approach scales to processing one-hour long videos in
a single forward pass. Our results demonstrate substantial improvements (e.g.,
45.3 vs 26.7 F1 score) over the state of the art on the recent VidChapters-7M
benchmark. To promote further research, we release our code and models at our
project page.Summary
AI-Generated Summary