ChatPaper.aiChatPaper

다차원 통찰: 대규모 다중모달 모델에서 실제 세계 개인화의 벤치마킹

Multi-Dimensional Insights: Benchmarking Real-World Personalization in Large Multimodal Models

December 17, 2024
저자: YiFan Zhang, Shanglin Lei, Runqi Qiao, Zhuoma GongQue, Xiaoshuai Song, Guanting Dong, Qiuna Tan, Zhe Wei, Peiqing Yang, Ye Tian, Yadong Xue, Xiaofei Wang, Honggang Zhang
cs.AI

초록

대규모 다중 모달 모델(LMMs) 분야의 급속한 발전으로 다양한 능력을 갖춘 다양한 모델이 등장했습니다. 그러나 기존의 평가 기준은 LMMs가 현실 세계 시나리오에서 사람들의 다양한 요구와 일치하는지를 포괄적으로, 객관적으로, 정확하게 평가하지 못합니다. 이 간극을 메우기 위해 우리는 Multi-Dimensional Insights(MDI) 벤치마크를 제안합니다. 이 벤치마크는 인간 생활의 여섯 가지 일반적 시나리오를 다루는 500개 이상의 이미지를 포함합니다. 특히 MDI-벤치마크는 기존 평가에 비해 두 가지 중요한 장점을 제공합니다. 첫째, 각 이미지는 이미지 이해를 평가하는 간단한 질문과 기본 콘텐츠 이상의 분석과 추론 능력을 평가하는 복잡한 질문 두 가지 유형의 질문과 함께 제공됩니다. 둘째, 동일한 시나리오에 직면했을 때 서로 다른 연령대의 사람들이 다양한 요구와 시각을 갖는다는 점을 고려하여 우리의 벤치마크는 질문을 청소년, 중년, 노인 세 가지 연령 그룹으로 분류합니다. 이 설계는 LMMs가 다양한 연령 그룹의 선호도와 요구를 충족하는 능력을 상세히 평가할 수 있도록 합니다. MDI-벤치마크를 통해 GPT-4와 같은 강력한 모델이 연령 관련 작업에서 79%의 정확도를 달성했으며, 기존 LMMs가 현실 세계 응용 프로그램에 대한 개선 여지가 상당히 있다는 것을 보여줍니다. 앞으로 MDI-벤치마크가 LMMs에서 현실 세계 개인화를 조율하는 새로운 길을 열 것으로 기대합니다. MDI-벤치마크 데이터와 평가 코드는 https://mdi-benchmark.github.io/에서 제공됩니다.
English
The rapidly developing field of large multimodal models (LMMs) has led to the emergence of diverse models with remarkable capabilities. However, existing benchmarks fail to comprehensively, objectively and accurately evaluate whether LMMs align with the diverse needs of humans in real-world scenarios. To bridge this gap, we propose the Multi-Dimensional Insights (MDI) benchmark, which includes over 500 images covering six common scenarios of human life. Notably, the MDI-Benchmark offers two significant advantages over existing evaluations: (1) Each image is accompanied by two types of questions: simple questions to assess the model's understanding of the image, and complex questions to evaluate the model's ability to analyze and reason beyond basic content. (2) Recognizing that people of different age groups have varying needs and perspectives when faced with the same scenario, our benchmark stratifies questions into three age categories: young people, middle-aged people, and older people. This design allows for a detailed assessment of LMMs' capabilities in meeting the preferences and needs of different age groups. With MDI-Benchmark, the strong model like GPT-4o achieve 79% accuracy on age-related tasks, indicating that existing LMMs still have considerable room for improvement in addressing real-world applications. Looking ahead, we anticipate that the MDI-Benchmark will open new pathways for aligning real-world personalization in LMMs. The MDI-Benchmark data and evaluation code are available at https://mdi-benchmark.github.io/
PDF413December 18, 2024