개인화된 다중 모달 대형 언어 모델: 조사
Personalized Multimodal Large Language Models: A Survey
December 3, 2024
저자: Junda Wu, Hanjia Lyu, Yu Xia, Zhehao Zhang, Joe Barrow, Ishita Kumar, Mehrnoosh Mirtaheri, Hongjie Chen, Ryan A. Rossi, Franck Dernoncourt, Tong Yu, Ruiyi Zhang, Jiuxiang Gu, Nesreen K. Ahmed, Yu Wang, Xiang Chen, Hanieh Deilamsalehy, Namyong Park, Sungchul Kim, Huanrui Yang, Subrata Mitra, Zhengmian Hu, Nedim Lipka, Dang Nguyen, Yue Zhao, Jiebo Luo, Julian McAuley
cs.AI
초록
다중 모달 대형 언어 모델(MLLMs)은 최첨단 성능과 여러 데이터 모드(텍스트, 이미지, 오디오 등)를 통합하여 고정확도로 복잡한 작업을 수행하는 능력으로 점점 더 중요해지고 있습니다. 본 논문은 개인화된 다중 모달 대형 언어 모델에 대한 포괄적인 조사를 제시하며, 그 구조, 훈련 방법, 응용에 초점을 맞춥니다. 우리는 MLLMs를 개인 사용자에 맞추는 기술을 분류하기 위한 직관적인 분류법을 제안하고, 해당 기술들을 논의합니다. 더불어, 이러한 기술들이 적절할 때 어떻게 결합되거나 적응될 수 있는지, 그 이점과 근본적인 근거를 강조합니다. 또한, 기존 연구에서 조사된 개인화 작업과 흔히 사용되는 평가 지표를 간결하게 요약합니다. 게다가, 개인화된 MLLMs의 벤치마킹에 유용한 데이터셋을 요약합니다. 마지막으로, 중요한 미해결 과제를 개요합니다. 본 조사는 개인화된 다중 모달 대형 언어 모델의 발전을 이해하고 발전시키기 위해 노력하는 연구자와 실무자들에게 유용한 자원으로 기여하고자 합니다.
English
Multimodal Large Language Models (MLLMs) have become increasingly important
due to their state-of-the-art performance and ability to integrate multiple
data modalities, such as text, images, and audio, to perform complex tasks with
high accuracy. This paper presents a comprehensive survey on personalized
multimodal large language models, focusing on their architecture, training
methods, and applications. We propose an intuitive taxonomy for categorizing
the techniques used to personalize MLLMs to individual users, and discuss the
techniques accordingly. Furthermore, we discuss how such techniques can be
combined or adapted when appropriate, highlighting their advantages and
underlying rationale. We also provide a succinct summary of personalization
tasks investigated in existing research, along with the evaluation metrics
commonly used. Additionally, we summarize the datasets that are useful for
benchmarking personalized MLLMs. Finally, we outline critical open challenges.
This survey aims to serve as a valuable resource for researchers and
practitioners seeking to understand and advance the development of personalized
multimodal large language models.Summary
AI-Generated Summary