ChatPaper.aiChatPaper

MIO: 다중 모달 토큰에 대한 기반 모델

MIO: A Foundation Model on Multimodal Tokens

September 26, 2024
저자: Zekun Wang, King Zhu, Chunpu Xu, Wangchunshu Zhou, Jiaheng Liu, Yibo Zhang, Jiashuo Wang, Ning Shi, Siyu Li, Yizhi Li, Haoran Que, Zhaoxiang Zhang, Yuanxing Zhang, Ge Zhang, Ke Xu, Jie Fu, Wenhao Huang
cs.AI

초록

본 논문에서는 멀티모달 토큰을 기반으로 한 혁신적인 MIO 모델을 소개합니다. 이 모델은 음성, 텍스트, 이미지, 그리고 비디오를 종단 간 자기회귀 방식으로 이해하고 생성할 수 있습니다. 대형 언어 모델 (LLMs)과 멀티모달 대형 언어 모델 (MM-LLMs)의 등장으로 인해 인공 일반 지능의 발전이 가능해지지만, 이러한 모델들은 여전히 진정한 어디서든 어디로의 이해와 생성 능력이 부족합니다. 최근에 공개된 GPT-4o는 복잡한 실제 과제에 대한 어디서든 어디로의 LLMs의 놀라운 잠재력을 보여주었으며, 이미지, 음성, 그리고 텍스트를 횡단적으로 입력하고 출력할 수 있습니다. 그러나 이 모델은 소스가 공개되지 않았으며 멀티모달 교차 시퀀스 생성을 지원하지 않습니다. 이러한 공백을 해결하기 위해 우리는 네 가지 모달리티를 통해 인과적 멀티모달 모델링을 사용하여 훈련된 MIO를 제시합니다. MIO는 (1) 정렬 사전 훈련, (2) 교차 사전 훈련, (3) 음성 강화 사전 훈련, 그리고 (4) 다양한 텍스트, 시각, 그리고 음성 과제에 대한 포괄적인 지도 학습 미세 조정을 거칩니다. 실험 결과는 MIO가 이전 이중 모달 베이스라인, 어디서든 어디로 모델 베이스라인, 심지어 모달리티 특정 베이스라인과 경쟁력 있는 성능을 나타내는 것을 보여주며, 때로는 우수한 성능을 보입니다. 더불어 MIO는 교차 비디오-텍스트 생성, 시각적 사고 연쇄 추론, 시각적 가이드라인 생성, 지시 이미지 편집 등과 같은 어디서든 어디로 특징에 내재된 고급 기능을 보여줍니다.
English
In this paper, we introduce MIO, a novel foundation model built on multimodal tokens, capable of understanding and generating speech, text, images, and videos in an end-to-end, autoregressive manner. While the emergence of large language models (LLMs) and multimodal large language models (MM-LLMs) propels advancements in artificial general intelligence through their versatile capabilities, they still lack true any-to-any understanding and generation. Recently, the release of GPT-4o has showcased the remarkable potential of any-to-any LLMs for complex real-world tasks, enabling omnidirectional input and output across images, speech, and text. However, it is closed-source and does not support the generation of multimodal interleaved sequences. To address this gap, we present MIO, which is trained on a mixture of discrete tokens across four modalities using causal multimodal modeling. MIO undergoes a four-stage training process: (1) alignment pre-training, (2) interleaved pre-training, (3) speech-enhanced pre-training, and (4) comprehensive supervised fine-tuning on diverse textual, visual, and speech tasks. Our experimental results indicate that MIO exhibits competitive, and in some cases superior, performance compared to previous dual-modal baselines, any-to-any model baselines, and even modality-specific baselines. Moreover, MIO demonstrates advanced capabilities inherent to its any-to-any feature, such as interleaved video-text generation, chain-of-visual-thought reasoning, visual guideline generation, instructional image editing, etc.

Summary

AI-Generated Summary

PDF544November 16, 2024