WikiVideo: Generazione di Articoli da Più Video

Abstract

Presentiamo la sfida di creare automaticamente un articolo di alto livello in stile Wikipedia che aggreghi informazioni provenienti da video diversi su eventi del mondo reale, come disastri naturali o elezioni politiche. I video sono fonti intuitive per la generazione aumentata dal recupero (RAG), ma la maggior parte dei flussi di lavoro RAG contemporanei si concentra principalmente sul testo, e i metodi esistenti per la sintesi basata su video si focalizzano sulla comprensione a basso livello delle scene piuttosto che sulla semantica ad alto livello degli eventi. Per colmare questa lacuna, introduciamo WikiVideo, un benchmark costituito da articoli scritti da esperti e video densamente annotati che forniscono prove per le affermazioni degli articoli, facilitando l'integrazione dei video nelle pipeline RAG e consentendo la creazione di contenuti approfonditi basati su fonti multimodali. Proponiamo inoltre la Generazione Collaborativa di Articoli (CAG), un metodo interattivo innovativo per la creazione di articoli da più video. CAG sfrutta un'interazione iterativa tra un modello di ragionamento in stile r1 e un VideoLLM per trarre inferenze di livello superiore sull'evento target rispetto a quanto è possibile con i soli VideoLLM, che si concentrano su caratteristiche visive di basso livello. Valutiamo i VideoLLM all'avanguardia e CAG sia in contesti di recupero oracolare che RAG, e scopriamo che CAG supera costantemente i metodi alternativi, suggerendo al contempo interessanti direzioni per futuri lavori.

English

We present the challenging task of automatically creating a high-level Wikipedia-style article that aggregates information from multiple diverse videos about real-world events, such as natural disasters or political elections. Videos are intuitive sources for retrieval-augmented generation (RAG), but most contemporary RAG workflows focus heavily on text and existing methods for video-based summarization focus on low-level scene understanding rather than high-level event semantics. To close this gap, we introduce WikiVideo, a benchmark consisting of expert-written articles and densely annotated videos that provide evidence for articles' claims, facilitating the integration of video into RAG pipelines and enabling the creation of in-depth content that is grounded in multimodal sources. We further propose Collaborative Article Generation (CAG), a novel interactive method for article creation from multiple videos. CAG leverages an iterative interaction between an r1-style reasoning model and a VideoLLM to draw higher level inferences about the target event than is possible with VideoLLMs alone, which fixate on low-level visual features. We benchmark state-of-the-art VideoLLMs and CAG in both oracle retrieval and RAG settings and find that CAG consistently outperforms alternative methods, while suggesting intriguing avenues for future work.

WikiVideo: Generazione di Articoli da Più Video

WikiVideo: Article Generation from Multiple Videos

Abstract

Summary

Support

Support