ChatPaper.aiChatPaper

多次元の洞察:大規模なマルチモーダルモデルにおける実世界のパーソナライゼーションのベンチマーク化

Multi-Dimensional Insights: Benchmarking Real-World Personalization in Large Multimodal Models

December 17, 2024
著者: YiFan Zhang, Shanglin Lei, Runqi Qiao, Zhuoma GongQue, Xiaoshuai Song, Guanting Dong, Qiuna Tan, Zhe Wei, Peiqing Yang, Ye Tian, Yadong Xue, Xiaofei Wang, Honggang Zhang
cs.AI

要旨

急速に発展している大規模多モーダルモデル(LMMs)の分野は、優れた能力を持つ多様なモデルの出現をもたらしています。しかしながら、既存のベンチマークは、LMMsが現実世界のシナリオにおける人間の多様なニーズと整合しているかを包括的かつ客観的かつ正確に評価することに失敗しています。このギャップを埋めるために、私たちはMulti-Dimensional Insights(MDI)ベンチマークを提案します。このベンチマークには、人間の生活の六つの一般的なシナリオをカバーする500以上の画像が含まれています。特筆すべきは、MDIベンチマークが既存の評価に比べて二つの重要な利点を提供していることです。第一に、各画像には、画像の理解を評価するための簡単な質問と、基本的な内容を超えた分析と推論能力を評価する複雑な質問の二種類の質問が添付されています。第二に、同じシナリオに直面した際に異なる年齢層の人々が異なるニーズと視点を持っていることを認識し、私たちのベンチマークは質問を若者、中年、高齢の三つの年齢カテゴリに分類しています。この設計により、LMMsが異なる年齢層の好みやニーズにどのように対応するかを詳細に評価することが可能となっています。MDIベンチマークにより、GPT-4などの強力なモデルが年齢に関連するタスクで79%の精度を達成しており、既存のLMMsには現実世界のアプリケーションに対処するための改善余地がまだかなりあることが示されています。今後、MDIベンチマークがLMMsにおける現実世界の個人化を整合させる新しい道を開くことが期待されます。MDIベンチマークのデータと評価コードは、https://mdi-benchmark.github.io/ で入手可能です。
English
The rapidly developing field of large multimodal models (LMMs) has led to the emergence of diverse models with remarkable capabilities. However, existing benchmarks fail to comprehensively, objectively and accurately evaluate whether LMMs align with the diverse needs of humans in real-world scenarios. To bridge this gap, we propose the Multi-Dimensional Insights (MDI) benchmark, which includes over 500 images covering six common scenarios of human life. Notably, the MDI-Benchmark offers two significant advantages over existing evaluations: (1) Each image is accompanied by two types of questions: simple questions to assess the model's understanding of the image, and complex questions to evaluate the model's ability to analyze and reason beyond basic content. (2) Recognizing that people of different age groups have varying needs and perspectives when faced with the same scenario, our benchmark stratifies questions into three age categories: young people, middle-aged people, and older people. This design allows for a detailed assessment of LMMs' capabilities in meeting the preferences and needs of different age groups. With MDI-Benchmark, the strong model like GPT-4o achieve 79% accuracy on age-related tasks, indicating that existing LMMs still have considerable room for improvement in addressing real-world applications. Looking ahead, we anticipate that the MDI-Benchmark will open new pathways for aligning real-world personalization in LMMs. The MDI-Benchmark data and evaluation code are available at https://mdi-benchmark.github.io/

Summary

AI-Generated Summary

PDF423December 18, 2024