VITA-1.5: Verso un'interazione in tempo reale tra visione e linguaggio di livello GPT-4.
VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction
January 3, 2025
Autori: Chaoyou Fu, Haojia Lin, Xiong Wang, Yi-Fan Zhang, Yunhang Shen, Xiaoyu Liu, Yangze Li, Zuwei Long, Heting Gao, Ke Li, Xiawu Zheng, Rongrong Ji, Xing Sun, Caifeng Shan, Ran He
cs.AI
Abstract
I recenti Modelli Linguistici Multimodali di Grandi Dimensioni (MLLMs) si sono tipicamente concentrati sull'integrazione delle modalità visiva e testuale, con meno enfasi posta sul ruolo del linguaggio parlato nel migliorare l'interazione. Tuttavia, il linguaggio parlato svolge un ruolo cruciale nei sistemi di dialogo multimodali, e implementare prestazioni elevate sia nei compiti visivi che in quelli del linguaggio parlato rimane una sfida significativa a causa delle differenze fondamentali di modalità. In questo articolo, proponiamo una metodologia di addestramento multi-stadio attentamente progettata che addestra progressivamente il LLM a comprendere sia le informazioni visive che quelle del linguaggio parlato, consentendo infine un'interazione fluida tra visione e linguaggio parlato. Il nostro approccio non solo preserva una forte capacità di visione-linguaggio, ma consente anche capacità di dialogo efficienti da linguaggio parlato a linguaggio parlato senza moduli ASR e TTS separati, accelerando significativamente la velocità di risposta multimodale end-to-end. Confrontando il nostro metodo con i corrispondenti all'avanguardia su benchmark per immagini, video e compiti di linguaggio parlato, dimostriamo che il nostro modello è dotato di forti capacità visive e del linguaggio parlato, consentendo un'interazione quasi in tempo reale tra visione e linguaggio parlato.
English
Recent Multimodal Large Language Models (MLLMs) have typically focused on
integrating visual and textual modalities, with less emphasis placed on the
role of speech in enhancing interaction. However, speech plays a crucial role
in multimodal dialogue systems, and implementing high-performance in both
vision and speech tasks remains a significant challenge due to the fundamental
modality differences. In this paper, we propose a carefully designed
multi-stage training methodology that progressively trains LLM to understand
both visual and speech information, ultimately enabling fluent vision and
speech interaction. Our approach not only preserves strong vision-language
capacity, but also enables efficient speech-to-speech dialogue capabilities
without separate ASR and TTS modules, significantly accelerating multimodal
end-to-end response speed. By comparing our method against state-of-the-art
counterparts across benchmarks for image, video, and speech tasks, we
demonstrate that our model is equipped with both strong visual and speech
capabilities, making near real-time vision and speech interaction.Summary
AI-Generated Summary