TP-Eval: Erschließen Sie das Potenzial multimodaler LLMs in der Evaluation durch die Anpassung von Aufforderungen.

Zusammenfassung

In letzter Zeit haben multimodale große Sprachmodelle (MLLMs) aufgrund ihrer beeindruckenden Fähigkeiten viel Aufmerksamkeit erhalten. Die Evaluierung von MLLMs wird zunehmend wichtig, um die Eigenschaften von MLLMs zu analysieren und wertvolle Erkenntnisse zu liefern. Allerdings vernachlässigen aktuelle Benchmarks das Problem der Prompt-Sensitivität - geringfügige Prompt-Variationen können zu signifikanten Leistungsschwankungen führen. Inadäquate Prompts können somit die Fähigkeiten der Modelle verschleiern und die Leistung der Modelle unterschätzen. Zudem haben verschiedene Modelle unterschiedliche Präferenzen für verschiedene Prompts, sodass die Verwendung desselben Prompts für alle Modelle zu Evaluationsverzerrungen führen wird. Diese Arbeit analysiert diese Schwäche in bestehenden Benchmarks und führt ein neues Evaluierungsframework namens TP-Eval ein, das eine Prompt-Anpassungsmethode einführt, um Evaluationsverzerrungen zu reduzieren und das Potenzial der Modelle zu nutzen. TP-Eval wird die ursprünglichen Prompts in verschiedene angepasste Prompts für verschiedene Modelle umschreiben. Insbesondere schlagen wir einige gut durchdachte Module für die Prompt-Anpassung vor, die auf das Szenario der MLLM-Evaluierung zugeschnitten sind. Umfangreiche Experimente zeigen die Wirksamkeit unseres Ansatzes zur Aufdeckung der Fähigkeiten der Modelle, und TP-Eval sollte der Gemeinschaft dabei helfen, umfassendere und überzeugendere MLLM-Evaluierungsbenchmarks zu entwickeln.

English

Recently, multimodal large language models (MLLMs) have received much attention for their impressive capabilities. The evaluation of MLLMs is becoming critical to analyzing attributes of MLLMs and providing valuable insights. However, current benchmarks overlook the problem of prompt sensitivity - minor prompt variations may lead to significant performance fluctuations. Thus, inappropriate prompts may obscure the models' capabilities, underestimating the models' performance. Moreover, different models have different preferences for different prompts, and thus, using the same prompt for all models will cause evaluation bias. This paper analyzes this deficiency in existing benchmarks and further introduces a new evaluation framework named TP-Eval, which introduces a prompt customization method to reduce evaluation biases and tap models' potential. TP-Eval will rewrite the original prompts to different customized prompts for different models. In particular, we propose some well-designed modules for prompt customization tailored to the scenario of MLLM evaluation. Extensive experiments demonstrate the effectiveness of our approach to uncovering models' capabilities, and TP-Eval should benefit the community in developing more comprehensive and convincing MLLM evaluation benchmarks.

TP-Eval: Erschließen Sie das Potenzial multimodaler LLMs in der Evaluation durch die Anpassung von Aufforderungen.

TP-Eval: Tap Multimodal LLMs' Potential in Evaluation by Customizing Prompts

Zusammenfassung

Summary

Support