Emu3: 다음 토큰 예측이 필요한 모든 것입니다.
Emu3: Next-Token Prediction is All You Need
September 27, 2024
저자: Xinlong Wang, Xiaosong Zhang, Zhengxiong Luo, Quan Sun, Yufeng Cui, Jinsheng Wang, Fan Zhang, Yueze Wang, Zhen Li, Qiying Yu, Yingli Zhao, Yulong Ao, Xuebin Min, Tao Li, Boya Wu, Bo Zhao, Bowen Zhang, Liangdong Wang, Guang Liu, Zheqi He, Xi Yang, Jingjing Liu, Yonghua Lin, Tiejun Huang, Zhongyuan Wang
cs.AI
초록
다음 토큰 예측은 인공 일반 지능으로의 유망한 길로 간주되지만, 다중 모달 작업에서 뛰어나기 어려웠으며, 여전히 확산 모델 (예: Stable Diffusion) 및 구성적 접근 (예: CLIP과 LLMs를 결합한)에 의해 주도되고 있습니다. 본 논문에서는 Emu3를 소개합니다. 이는 다음 토큰 예측만을 사용하여 훈련된 최첨단 다중 모달 모델 스위트입니다. 이미지, 텍스트 및 비디오를 토큰화하여 이산 공간으로 변환한 후, 다중 모달 시퀀스의 혼합물을 통해 단일 트랜스포머를 처음부터 훈련합니다. Emu3는 생성 및 인식 작업 모두에서 몇 가지 잘 알려진 작업별 모델을 능가하며, SDXL 및 LLaVA-1.6과 같은 주요 모델을 뛰어넘으면서 확산 또는 구성적 아키텍처의 필요성을 제거합니다. Emu3는 또한 비디오 시퀀스에서 다음 토큰을 예측함으로써 고품질 비디오를 생성할 수 있습니다. 우리는 훈련 및 추론 중에 확장 가능성을 높이기 위해 토큰에 중점을 두는 것으로 복잡한 다중 모달 모델 설계를 간소화합니다. 우리의 결과는 다음 토큰 예측이 언어를 넘어 일반적인 다중 모달 지능을 구축하는 유망한 길임을 보여줍니다. 우리는 이 방향으로의 추가 연구를 지원하기 위해 주요 기술과 모델을 오픈 소스로 제공합니다.
English
While next-token prediction is considered a promising path towards artificial
general intelligence, it has struggled to excel in multimodal tasks, which are
still dominated by diffusion models (e.g., Stable Diffusion) and compositional
approaches (e.g., CLIP combined with LLMs). In this paper, we introduce Emu3, a
new suite of state-of-the-art multimodal models trained solely with next-token
prediction. By tokenizing images, text, and videos into a discrete space, we
train a single transformer from scratch on a mixture of multimodal sequences.
Emu3 outperforms several well-established task-specific models in both
generation and perception tasks, surpassing flagship models such as SDXL and
LLaVA-1.6, while eliminating the need for diffusion or compositional
architectures. Emu3 is also capable of generating high-fidelity video via
predicting the next token in a video sequence. We simplify complex multimodal
model designs by converging on a singular focus: tokens, unlocking great
potential for scaling both during training and inference. Our results
demonstrate that next-token prediction is a promising path towards building
general multimodal intelligence beyond language. We open-source key techniques
and models to support further research in this direction.Summary
AI-Generated Summary