WikiVideo: Generazione di Articoli da Più Video
WikiVideo: Article Generation from Multiple Videos
April 1, 2025
Autori: Alexander Martin, Reno Kriz, William Gantt Walden, Kate Sanders, Hannah Recknor, Eugene Yang, Francis Ferraro, Benjamin Van Durme
cs.AI
Abstract
Presentiamo la sfida di creare automaticamente un articolo di alto livello in stile Wikipedia che aggreghi informazioni provenienti da video diversi su eventi del mondo reale, come disastri naturali o elezioni politiche. I video sono fonti intuitive per la generazione aumentata dal recupero (RAG), ma la maggior parte dei flussi di lavoro RAG contemporanei si concentra principalmente sul testo, e i metodi esistenti per la sintesi basata su video si focalizzano sulla comprensione a basso livello delle scene piuttosto che sulla semantica ad alto livello degli eventi. Per colmare questa lacuna, introduciamo WikiVideo, un benchmark costituito da articoli scritti da esperti e video densamente annotati che forniscono prove per le affermazioni degli articoli, facilitando l'integrazione dei video nelle pipeline RAG e consentendo la creazione di contenuti approfonditi basati su fonti multimodali. Proponiamo inoltre la Generazione Collaborativa di Articoli (CAG), un metodo interattivo innovativo per la creazione di articoli da più video. CAG sfrutta un'interazione iterativa tra un modello di ragionamento in stile r1 e un VideoLLM per trarre inferenze di livello superiore sull'evento target rispetto a quanto è possibile con i soli VideoLLM, che si concentrano su caratteristiche visive di basso livello. Valutiamo i VideoLLM all'avanguardia e CAG sia in contesti di recupero oracolare che RAG, e scopriamo che CAG supera costantemente i metodi alternativi, suggerendo al contempo interessanti direzioni per futuri lavori.
English
We present the challenging task of automatically creating a high-level
Wikipedia-style article that aggregates information from multiple diverse
videos about real-world events, such as natural disasters or political
elections. Videos are intuitive sources for retrieval-augmented generation
(RAG), but most contemporary RAG workflows focus heavily on text and existing
methods for video-based summarization focus on low-level scene understanding
rather than high-level event semantics. To close this gap, we introduce
WikiVideo, a benchmark consisting of expert-written articles and densely
annotated videos that provide evidence for articles' claims, facilitating the
integration of video into RAG pipelines and enabling the creation of in-depth
content that is grounded in multimodal sources. We further propose
Collaborative Article Generation (CAG), a novel interactive method for article
creation from multiple videos. CAG leverages an iterative interaction between
an r1-style reasoning model and a VideoLLM to draw higher level inferences
about the target event than is possible with VideoLLMs alone, which fixate on
low-level visual features. We benchmark state-of-the-art VideoLLMs and CAG in
both oracle retrieval and RAG settings and find that CAG consistently
outperforms alternative methods, while suggesting intriguing avenues for future
work.Summary
AI-Generated Summary