ChatPaper.aiChatPaper

OmniMMI: Un Benchmark Completo per l'Interazione Multi-modale nei Contesti di Video in Streaming

OmniMMI: A Comprehensive Multi-modal Interaction Benchmark in Streaming Video Contexts

March 29, 2025
Autori: Yuxuan Wang, Yueqian Wang, Bo Chen, Tong Wu, Dongyan Zhao, Zilong Zheng
cs.AI

Abstract

Il rapido progresso dei modelli linguistici multimodali (MLLM) come GPT-4o ha spinto lo sviluppo dei modelli linguistici Omni, progettati per elaborare e rispondere proattivamente a flussi continui di dati multimodali. Nonostante il loro potenziale, valutare le loro capacità interattive nel mondo reale in contesti di streaming video rimane una sfida formidabile. In questo lavoro, introduciamo OmniMMI, un benchmark completo per l'interazione multimodale, specificamente adattato per gli OmniLLM in contesti di streaming video. OmniMMI comprende oltre 1.121 video e 2.290 domande, affrontando due sfide critiche ma poco esplorate negli attuali benchmark video: la comprensione dello streaming video e il ragionamento proattivo, attraverso sei sottotask distinti. Inoltre, proponiamo un nuovo framework, il Multi-modal Multiplexing Modeling (M4), progettato per abilitare un modello di streaming efficiente nell'inferenza che possa vedere, ascoltare mentre genera.
English
The rapid advancement of multi-modal language models (MLLMs) like GPT-4o has propelled the development of Omni language models, designed to process and proactively respond to continuous streams of multi-modal data. Despite their potential, evaluating their real-world interactive capabilities in streaming video contexts remains a formidable challenge. In this work, we introduce OmniMMI, a comprehensive multi-modal interaction benchmark tailored for OmniLLMs in streaming video contexts. OmniMMI encompasses over 1,121 videos and 2,290 questions, addressing two critical yet underexplored challenges in existing video benchmarks: streaming video understanding and proactive reasoning, across six distinct subtasks. Moreover, we propose a novel framework, Multi-modal Multiplexing Modeling (M4), designed to enable an inference-efficient streaming model that can see, listen while generating.

Summary

AI-Generated Summary

PDF182April 2, 2025