VITA-1.5: GPT-4oレベルのリアルタイムビジョンと音声インタラクションに向けて
VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction
January 3, 2025
著者: Chaoyou Fu, Haojia Lin, Xiong Wang, Yi-Fan Zhang, Yunhang Shen, Xiaoyu Liu, Yangze Li, Zuwei Long, Heting Gao, Ke Li, Xiawu Zheng, Rongrong Ji, Xing Sun, Caifeng Shan, Ran He
cs.AI
要旨
最近の多モーダル大規模言語モデル(MLLMs)は、通常、視覚とテキストのモダリティを統合することに焦点を当てており、対話の向上における音声の役割にはあまり重点が置かれていませんでした。しかし、音声は多モーダル対話システムにおいて重要な役割を果たし、視覚と音声の両方のタスクで高性能を実現することは、基本的なモダリティの違いにより依然として大きな課題です。本論文では、視覚と音声情報の両方を理解するように徐々にLLMを訓練する、注意深く設計された多段階トレーニング方法を提案します。これにより、流暢な視覚と音声の相互作用が可能となります。私たちのアプローチは、強力な視覚言語能力を維持するだけでなく、別個の音声認識(ASR)およびテキスト読み上げ(TTS)モジュールなしで効率的な音声対話能力を実現し、多モーダルエンドツーエンド応答速度を大幅に向上させます。画像、動画、音声タスクのベンチマークを通じて、最先端の対照モデルと比較することで、私たちの手法が強力な視覚と音声能力を備えており、ほぼリアルタイムの視覚と音声の相互作用が可能であることを示します。
English
Recent Multimodal Large Language Models (MLLMs) have typically focused on
integrating visual and textual modalities, with less emphasis placed on the
role of speech in enhancing interaction. However, speech plays a crucial role
in multimodal dialogue systems, and implementing high-performance in both
vision and speech tasks remains a significant challenge due to the fundamental
modality differences. In this paper, we propose a carefully designed
multi-stage training methodology that progressively trains LLM to understand
both visual and speech information, ultimately enabling fluent vision and
speech interaction. Our approach not only preserves strong vision-language
capacity, but also enables efficient speech-to-speech dialogue capabilities
without separate ASR and TTS modules, significantly accelerating multimodal
end-to-end response speed. By comparing our method against state-of-the-art
counterparts across benchmarks for image, video, and speech tasks, we
demonstrate that our model is equipped with both strong visual and speech
capabilities, making near real-time vision and speech interaction.Summary
AI-Generated Summary