TP-Eval : Exploiter le potentiel des LMM multimodaux dans l'évaluation en personnalisant les invitations

Résumé

Récemment, les grands modèles de langage multimodaux (MLLM) ont suscité beaucoup d'attention en raison de leurs capacités impressionnantes. L'évaluation des MLLM devient cruciale pour analyser les attributs des MLLM et fournir des informations précieuses. Cependant, les références actuelles négligent le problème de la sensibilité à la requête - de légères variations de requêtes peuvent entraîner des fluctuations de performance significatives. Ainsi, des requêtes inappropriées peuvent obscurcir les capacités des modèles, sous-estimant leurs performances. De plus, différents modèles ont des préférences différentes pour différentes requêtes, et donc, utiliser la même requête pour tous les modèles entraînera un biais d'évaluation. Ce document analyse cette lacune dans les références existantes et introduit un nouveau cadre d'évaluation appelé TP-Eval, qui propose une méthode de personnalisation de requête pour réduire les biais d'évaluation et exploiter le potentiel des modèles. TP-Eval réécrira les requêtes originales en différentes requêtes personnalisées pour différents modèles. En particulier, nous proposons quelques modules bien conçus pour la personnalisation de requête adaptés au scénario d'évaluation des MLLM. Des expériences approfondies démontrent l'efficacité de notre approche pour mettre en lumière les capacités des modèles, et TP-Eval devrait bénéficier à la communauté dans le développement de références d'évaluation des MLLM plus complètes et convaincantes.

English

Recently, multimodal large language models (MLLMs) have received much attention for their impressive capabilities. The evaluation of MLLMs is becoming critical to analyzing attributes of MLLMs and providing valuable insights. However, current benchmarks overlook the problem of prompt sensitivity - minor prompt variations may lead to significant performance fluctuations. Thus, inappropriate prompts may obscure the models' capabilities, underestimating the models' performance. Moreover, different models have different preferences for different prompts, and thus, using the same prompt for all models will cause evaluation bias. This paper analyzes this deficiency in existing benchmarks and further introduces a new evaluation framework named TP-Eval, which introduces a prompt customization method to reduce evaluation biases and tap models' potential. TP-Eval will rewrite the original prompts to different customized prompts for different models. In particular, we propose some well-designed modules for prompt customization tailored to the scenario of MLLM evaluation. Extensive experiments demonstrate the effectiveness of our approach to uncovering models' capabilities, and TP-Eval should benefit the community in developing more comprehensive and convincing MLLM evaluation benchmarks.

TP-Eval : Exploiter le potentiel des LMM multimodaux dans l'évaluation en personnalisant les invitations

TP-Eval: Tap Multimodal LLMs' Potential in Evaluation by Customizing Prompts

Résumé

Support