StreamChat: Chattare con Video in Streaming
StreamChat: Chatting with Streaming Video
December 11, 2024
Autori: Jihao Liu, Zhiding Yu, Shiyi Lan, Shihao Wang, Rongyao Fang, Jan Kautz, Hongsheng Li, Jose M. Alvare
cs.AI
Abstract
Questo articolo presenta StreamChat, un nuovo approccio che potenzia le capacità di interazione dei Grandi Modelli Multimodali (LMM) con contenuti video in streaming. Nei contesti di interazione in streaming, i metodi esistenti si basano esclusivamente sulle informazioni visive disponibili al momento in cui viene posta una domanda, con conseguenti ritardi significativi poiché il modello rimane inconsapevole dei cambiamenti successivi nel video in streaming. StreamChat affronta questa limitazione aggiornando in modo innovativo il contesto visivo ad ogni passaggio di decodifica, garantendo che il modello utilizzi contenuti video aggiornati durante l'intero processo di decodifica. Inoltre, introduciamo un'architettura flessibile ed efficiente basata su cross-attention per elaborare input dinamici in streaming mantenendo al contempo l'efficienza inferenziale per le interazioni in streaming. Inoltre, costruiamo un nuovo dataset di istruzioni denso per agevolare l'addestramento dei modelli di interazione in streaming, completato da un meccanismo parallelo 3D-RoPE che codifica le informazioni temporali relative dei token visivi e testuali. I risultati sperimentali dimostrano che StreamChat raggiunge prestazioni competitive su benchmark consolidati di immagini e video e mostra capacità superiori nei contesti di interazione in streaming rispetto ai migliori LMM video attuali.
English
This paper presents StreamChat, a novel approach that enhances the
interaction capabilities of Large Multimodal Models (LMMs) with streaming video
content. In streaming interaction scenarios, existing methods rely solely on
visual information available at the moment a question is posed, resulting in
significant delays as the model remains unaware of subsequent changes in the
streaming video. StreamChat addresses this limitation by innovatively updating
the visual context at each decoding step, ensuring that the model utilizes
up-to-date video content throughout the decoding process. Additionally, we
introduce a flexible and efficient crossattention-based architecture to process
dynamic streaming inputs while maintaining inference efficiency for streaming
interactions. Furthermore, we construct a new dense instruction dataset to
facilitate the training of streaming interaction models, complemented by a
parallel 3D-RoPE mechanism that encodes the relative temporal information of
visual and text tokens. Experimental results demonstrate that StreamChat
achieves competitive performance on established image and video benchmarks and
exhibits superior capabilities in streaming interaction scenarios compared to
state-of-the-art video LMM.Summary
AI-Generated Summary