ChatPaper.aiChatPaper

ViSMaP : Synthétisation non supervisée de vidéos d'une heure par méta-invite

ViSMaP: Unsupervised Hour-long Video Summarisation by Meta-Prompting

April 22, 2025
Auteurs: Jian Hu, Dimitrios Korkinof, Shaogang Gong, Mariano Beguerisse-Diaz
cs.AI

Résumé

Nous présentons ViSMap : Unsupervised Video Summarisation by Meta Prompting, un système permettant de résumer des vidéos d'une heure sans supervision. La plupart des modèles existants de compréhension vidéo fonctionnent bien sur des vidéos courtes d'événements pré-segmentés, mais ils peinent à résumer des vidéos plus longues où les événements pertinents sont dispersés et non pré-segmentés. De plus, la compréhension des vidéos longues repose souvent sur un entraînement hiérarchique supervisé nécessitant des annotations extensives, coûteuses, lentes et sujettes à des incohérences. Avec ViSMaP, nous comblons le fossé entre les vidéos courtes (où les données annotées sont abondantes) et les vidéos longues (où elles ne le sont pas). Nous utilisons des LLM pour créer des pseudo-résumés optimisés de vidéos longues en utilisant des descriptions de segments provenant de vidéos courtes. Ces pseudo-résumés servent de données d'entraînement pour un modèle générant des résumés de vidéos longues, évitant ainsi le besoin d'annotations coûteuses pour ces dernières. Plus précisément, nous adoptons une stratégie de méta-invite pour générer et affiner itérativement des pseudo-résumés de vidéos longues. Cette stratégie exploite des descriptions de clips courts obtenues à partir d'un modèle supervisé de vidéos courtes pour guider le résumé. Chaque itération utilise trois LLM fonctionnant en séquence : un pour générer le pseudo-résumé à partir des descriptions de clips, un autre pour l'évaluer, et un troisième pour optimiser l'invite du générateur. Cette itération est nécessaire car la qualité des pseudo-résumés dépend fortement de l'invite du générateur et varie considérablement selon les vidéos. Nous évaluons nos résumés de manière approfondie sur plusieurs jeux de données ; nos résultats montrent que ViSMaP atteint des performances comparables aux modèles supervisés de pointe tout en généralisant à travers différents domaines sans sacrifier la performance. Le code sera publié à la sortie de l'article.
English
We introduce ViSMap: Unsupervised Video Summarisation by Meta Prompting, a system to summarise hour long videos with no-supervision. Most existing video understanding models work well on short videos of pre-segmented events, yet they struggle to summarise longer videos where relevant events are sparsely distributed and not pre-segmented. Moreover, long-form video understanding often relies on supervised hierarchical training that needs extensive annotations which are costly, slow and prone to inconsistency. With ViSMaP we bridge the gap between short videos (where annotated data is plentiful) and long ones (where it's not). We rely on LLMs to create optimised pseudo-summaries of long videos using segment descriptions from short ones. These pseudo-summaries are used as training data for a model that generates long-form video summaries, bypassing the need for expensive annotations of long videos. Specifically, we adopt a meta-prompting strategy to iteratively generate and refine creating pseudo-summaries of long videos. The strategy leverages short clip descriptions obtained from a supervised short video model to guide the summary. Each iteration uses three LLMs working in sequence: one to generate the pseudo-summary from clip descriptions, another to evaluate it, and a third to optimise the prompt of the generator. This iteration is necessary because the quality of the pseudo-summaries is highly dependent on the generator prompt, and varies widely among videos. We evaluate our summaries extensively on multiple datasets; our results show that ViSMaP achieves performance comparable to fully supervised state-of-the-art models while generalising across domains without sacrificing performance. Code will be released upon publication.

Summary

AI-Generated Summary

PDF72April 25, 2025