VITA-1.5: Rumo à Interação em Tempo Real de Visão e Fala de Nível GPT-4
VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction
January 3, 2025
Autores: Chaoyou Fu, Haojia Lin, Xiong Wang, Yi-Fan Zhang, Yunhang Shen, Xiaoyu Liu, Yangze Li, Zuwei Long, Heting Gao, Ke Li, Xiawu Zheng, Rongrong Ji, Xing Sun, Caifeng Shan, Ran He
cs.AI
Resumo
Os recentes Modelos de Linguagem Multimodais de Grande Escala (MLLMs) têm tipicamente focado em integrar modalidades visual e textual, com menos ênfase no papel da fala em aprimorar a interação. No entanto, a fala desempenha um papel crucial em sistemas de diálogo multimodais, e implementar alto desempenho em tarefas de visão e fala continua sendo um desafio significativo devido às diferenças fundamentais de modalidade. Neste artigo, propomos uma metodologia de treinamento multiestágio cuidadosamente projetada que treina progressivamente o LLM para compreender tanto informações visuais quanto de fala, possibilitando, em última instância, uma interação fluente entre visão e fala. Nossa abordagem não apenas preserva uma forte capacidade de visão-linguagem, mas também possibilita capacidades eficientes de diálogo de fala para fala sem módulos separados de ASR e TTS, acelerando significativamente a velocidade de resposta multimodal de ponta a ponta. Ao comparar nosso método com contrapartes de última geração em benchmarks para tarefas de imagem, vídeo e fala, demonstramos que nosso modelo está equipado com capacidades visuais e de fala robustas, possibilitando interação de visão e fala quase em tempo real.
English
Recent Multimodal Large Language Models (MLLMs) have typically focused on
integrating visual and textual modalities, with less emphasis placed on the
role of speech in enhancing interaction. However, speech plays a crucial role
in multimodal dialogue systems, and implementing high-performance in both
vision and speech tasks remains a significant challenge due to the fundamental
modality differences. In this paper, we propose a carefully designed
multi-stage training methodology that progressively trains LLM to understand
both visual and speech information, ultimately enabling fluent vision and
speech interaction. Our approach not only preserves strong vision-language
capacity, but also enables efficient speech-to-speech dialogue capabilities
without separate ASR and TTS modules, significantly accelerating multimodal
end-to-end response speed. By comparing our method against state-of-the-art
counterparts across benchmarks for image, video, and speech tasks, we
demonstrate that our model is equipped with both strong visual and speech
capabilities, making near real-time vision and speech interaction.Summary
AI-Generated Summary