
Next Token Prediction Towards Multimodal Intelligence: A Comprehensive Survey

December 16, 2024
著者: Liang Chen, Zekun Wang, Shuhuai Ren, Lei Li, Haozhe Zhao, Yunshui Li, Zefan Cai, Hongcheng Guo, Lei Zhang, Yizhe Xiong, Yichi Zhang, Ruoyu Wu, Qingxiu Dong, Ge Zhang, Jian Yang, Lingwei Meng, Shujie Hu, Yulong Chen, Junyang Lin, Shuai Bai, Andreas Vlachos, Xu Tan, Minjia Zhang, Wen Xiao, Aaron Yee, Tianyu Liu, Baobao Chang


自然言語処理における言語モデリングの基盤を築いたことから、次トークン予測(NTP)は、さまざまなモダリティにわたる機械学習タスクのための多目的トレーニング目的として進化し、かなりの成功を収めてきました。大規模言語モデル(LLMs)がテキストモダリティ内の理解と生成タスクを統合するにつれ、最近の研究では、異なるモダリティからのタスクもNTPフレームワーク内に効果的にカプセル化できることが示され、多モーダル情報をトークンに変換し、文脈を考慮して次のトークンを予測することが可能です。本調査は、NTPの観点から多モーダル学習内の理解と生成を統一する包括的なタクソノミーを紹介します。提案されたタクソノミーは、多モーダルトークン化、MMNTPモデルアーキテクチャ、統一されたタスク表現、データセット&評価、およびオープンチャレンジという5つの主要な側面をカバーしています。この新しいタクソノミーは、研究者が多モーダルインテリジェンスの探求を支援することを目的としています。最新の論文やリポジトリを収集した関連するGitHubリポジトリは、https://github.com/LMM101/Awesome-Multimodal-Next-Token-Prediction で入手可能です。
Building on the foundations of language modeling in natural language processing, Next Token Prediction (NTP) has evolved into a versatile training objective for machine learning tasks across various modalities, achieving considerable success. As Large Language Models (LLMs) have advanced to unify understanding and generation tasks within the textual modality, recent research has shown that tasks from different modalities can also be effectively encapsulated within the NTP framework, transforming the multimodal information into tokens and predict the next one given the context. This survey introduces a comprehensive taxonomy that unifies both understanding and generation within multimodal learning through the lens of NTP. The proposed taxonomy covers five key aspects: Multimodal tokenization, MMNTP model architectures, unified task representation, datasets \& evaluation, and open challenges. This new taxonomy aims to aid researchers in their exploration of multimodal intelligence. An associated GitHub repository collecting the latest papers and repos is available at https://github.com/LMM101/Awesome-Multimodal-Next-Token-Prediction


AI-Generated Summary

PDF542December 30, 2024