ChatPaper.aiChatPaper

다음 토큰 예측을 향한 다중모달 인공지능: 포괄적인 조사

Next Token Prediction Towards Multimodal Intelligence: A Comprehensive Survey

December 16, 2024
저자: Liang Chen, Zekun Wang, Shuhuai Ren, Lei Li, Haozhe Zhao, Yunshui Li, Zefan Cai, Hongcheng Guo, Lei Zhang, Yizhe Xiong, Yichi Zhang, Ruoyu Wu, Qingxiu Dong, Ge Zhang, Jian Yang, Lingwei Meng, Shujie Hu, Yulong Chen, Junyang Lin, Shuai Bai, Andreas Vlachos, Xu Tan, Minjia Zhang, Wen Xiao, Aaron Yee, Tianyu Liu, Baobao Chang
cs.AI

초록

자연어 처리에서 언어 모델링의 기초를 바탕으로 한 Next Token Prediction (NTP)은 다양한 모달리티를 가진 기계 학습 작업에 대한 다재다능한 훈련 목표로 발전해 왔으며 상당한 성과를 이루었습니다. 대규모 언어 모델(Large Language Models, LLMs)이 텍스트 모달리티 내에서 이해와 생성 작업을 통합하는 데 발전함에 따라 최근 연구에서는 다른 모달리티의 작업도 NTP 프레임워크 내에 효과적으로 포함될 수 있다는 것을 보여주었습니다. 이를 통해 다모달 정보를 토큰으로 변환하고 문맥을 고려하여 다음 토큰을 예측합니다. 본 설문은 NTP의 시각을 통해 다모달 학습 내에서 이해와 생성을 통합하는 포괄적인 분류 체계를 소개합니다. 제안된 분류 체계는 다섯 가지 주요 측면을 다루며, 다모달 토큰화, MMNTP 모델 구조, 통합된 작업 표현, 데이터 및 평가, 그리고 오픈 챌린지를 다룹니다. 이 새로운 분류 체계는 연구자들이 다모달 인공지능을 탐구하는 데 도움이 되도록 목표로 합니다. 최신 논문과 저장소를 수집한 관련 GitHub 저장소는 https://github.com/LMM101/Awesome-Multimodal-Next-Token-Prediction에서 확인할 수 있습니다.
English
Building on the foundations of language modeling in natural language processing, Next Token Prediction (NTP) has evolved into a versatile training objective for machine learning tasks across various modalities, achieving considerable success. As Large Language Models (LLMs) have advanced to unify understanding and generation tasks within the textual modality, recent research has shown that tasks from different modalities can also be effectively encapsulated within the NTP framework, transforming the multimodal information into tokens and predict the next one given the context. This survey introduces a comprehensive taxonomy that unifies both understanding and generation within multimodal learning through the lens of NTP. The proposed taxonomy covers five key aspects: Multimodal tokenization, MMNTP model architectures, unified task representation, datasets \& evaluation, and open challenges. This new taxonomy aims to aid researchers in their exploration of multimodal intelligence. An associated GitHub repository collecting the latest papers and repos is available at https://github.com/LMM101/Awesome-Multimodal-Next-Token-Prediction

Summary

AI-Generated Summary

PDF552December 30, 2024