ChatPaper.aiChatPaper

Riassunto di Presentazioni Multimodali con Modelli Visione-Linguaggio: Studio dell'Effetto delle Modalità e della Struttura

Summarization of Multimodal Presentations with Vision-Language Models: Study of the Effect of Modalities and Structure

April 14, 2025
Autori: Théo Gigant, Camille Guinaudeau, Frédéric Dufaux
cs.AI

Abstract

I modelli Vision-Language (VLMs) sono in grado di elaborare informazioni visive e testuali in molteplici formati: testi, immagini, sequenze intervallate di testi e immagini, o persino video della durata di ore. In questo lavoro, conduciamo analisi quantitative e qualitative dettagliate sulla generazione automatica di riassunti di presentazioni multimodali utilizzando VLMs con diverse rappresentazioni come input. Da questi esperimenti, proponiamo strategie economicamente vantaggiose per generare riassunti da documenti multimodali ricchi di testo, considerando diversi budget di lunghezza dell'input con l'uso di VLMs. Dimostriamo che le slide estratte dal flusso video possono essere utilizzate in modo vantaggioso come input rispetto al video grezzo, e che una rappresentazione strutturata basata su slide e trascrizioni intervallate offre le migliori prestazioni. Infine, riflettiamo e commentiamo la natura delle interazioni cross-modali nelle presentazioni multimodali e condividiamo suggerimenti per migliorare le capacità dei VLMs di comprendere documenti di questo tipo.
English
Vision-Language Models (VLMs) can process visual and textual information in multiple formats: texts, images, interleaved texts and images, or even hour-long videos. In this work, we conduct fine-grained quantitative and qualitative analyses of automatic summarization of multimodal presentations using VLMs with various representations as input. From these experiments, we suggest cost-effective strategies for generating summaries from text-heavy multimodal documents under different input-length budgets using VLMs. We show that slides extracted from the video stream can be beneficially used as input against the raw video, and that a structured representation from interleaved slides and transcript provides the best performance. Finally, we reflect and comment on the nature of cross-modal interactions in multimodal presentations and share suggestions to improve the capabilities of VLMs to understand documents of this nature.

Summary

AI-Generated Summary

PDF22April 16, 2025