StreamChat: Chattare con Video in Streaming

StreamChat: Chatting with Streaming Video

December 11, 2024
Autori: Jihao Liu, Zhiding Yu, Shiyi Lan, Shihao Wang, Rongyao Fang, Jan Kautz, Hongsheng Li, Jose M. Alvare
cs.AI

Abstract

Questo articolo presenta StreamChat, un nuovo approccio che potenzia le capacità di interazione dei Grandi Modelli Multimodali (LMM) con contenuti video in streaming. Nei contesti di interazione in streaming, i metodi esistenti si basano esclusivamente sulle informazioni visive disponibili al momento in cui viene posta una domanda, con conseguenti ritardi significativi poiché il modello rimane inconsapevole dei cambiamenti successivi nel video in streaming. StreamChat affronta questa limitazione aggiornando in modo innovativo il contesto visivo ad ogni passaggio di decodifica, garantendo che il modello utilizzi contenuti video aggiornati durante l'intero processo di decodifica. Inoltre, introduciamo un'architettura flessibile ed efficiente basata su cross-attention per elaborare input dinamici in streaming mantenendo al contempo l'efficienza inferenziale per le interazioni in streaming. Inoltre, costruiamo un nuovo dataset di istruzioni denso per agevolare l'addestramento dei modelli di interazione in streaming, completato da un meccanismo parallelo 3D-RoPE che codifica le informazioni temporali relative dei token visivi e testuali. I risultati sperimentali dimostrano che StreamChat raggiunge prestazioni competitive su benchmark consolidati di immagini e video e mostra capacità superiori nei contesti di interazione in streaming rispetto ai migliori LMM video attuali.
English
This paper presents StreamChat, a novel approach that enhances the interaction capabilities of Large Multimodal Models (LMMs) with streaming video content. In streaming interaction scenarios, existing methods rely solely on visual information available at the moment a question is posed, resulting in significant delays as the model remains unaware of subsequent changes in the streaming video. StreamChat addresses this limitation by innovatively updating the visual context at each decoding step, ensuring that the model utilizes up-to-date video content throughout the decoding process. Additionally, we introduce a flexible and efficient crossattention-based architecture to process dynamic streaming inputs while maintaining inference efficiency for streaming interactions. Furthermore, we construct a new dense instruction dataset to facilitate the training of streaming interaction models, complemented by a parallel 3D-RoPE mechanism that encodes the relative temporal information of visual and text tokens. Experimental results demonstrate that StreamChat achieves competitive performance on established image and video benchmarks and exhibits superior capabilities in streaming interaction scenarios compared to state-of-the-art video LMM.

Summary

AI-Generated Summary

PDF182December 12, 2024