TP-Eval: Benut het potentieel van multimodale LLM's in evaluatie door prompts aan te passen.

Samenvatting

Onlangs hebben multimodale grote taalmodellen (MLLM's) veel aandacht gekregen vanwege hun indrukwekkende mogelijkheden. De evaluatie van MLLM's wordt steeds kritischer om de kenmerken van MLLM's te analyseren en waardevolle inzichten te bieden. Huidige benchmarks verwaarlozen echter het probleem van promptgevoeligheid - kleine variaties in prompts kunnen leiden tot aanzienlijke prestatiefluctuaties. Ongepaste prompts kunnen daardoor de mogelijkheden van de modellen vertroebelen en de prestaties van de modellen onderschatten. Bovendien hebben verschillende modellen verschillende voorkeuren voor verschillende prompts, waardoor het gebruik van dezelfde prompt voor alle modellen evaluatiebias veroorzaakt. Dit artikel analyseert deze tekortkoming in bestaande benchmarks en introduceert verder een nieuw evaluatiekader genaamd TP-Eval, dat een methode voor promptaanpassing introduceert om evaluatiebias te verminderen en het potentieel van modellen te benutten. TP-Eval zal de oorspronkelijke prompts herschrijven naar verschillende aangepaste prompts voor verschillende modellen. In het bijzonder stellen we enkele goed ontworpen modules voor promptaanpassing voor die zijn afgestemd op het scenario van MLLM-evaluatie. Uitgebreide experimenten tonen de effectiviteit van onze aanpak aan om de mogelijkheden van modellen bloot te leggen, en TP-Eval zou de gemeenschap ten goede moeten komen bij het ontwikkelen van meer uitgebreide en overtuigende MLLM-evaluatiebenchmarks.

English

Recently, multimodal large language models (MLLMs) have received much attention for their impressive capabilities. The evaluation of MLLMs is becoming critical to analyzing attributes of MLLMs and providing valuable insights. However, current benchmarks overlook the problem of prompt sensitivity - minor prompt variations may lead to significant performance fluctuations. Thus, inappropriate prompts may obscure the models' capabilities, underestimating the models' performance. Moreover, different models have different preferences for different prompts, and thus, using the same prompt for all models will cause evaluation bias. This paper analyzes this deficiency in existing benchmarks and further introduces a new evaluation framework named TP-Eval, which introduces a prompt customization method to reduce evaluation biases and tap models' potential. TP-Eval will rewrite the original prompts to different customized prompts for different models. In particular, we propose some well-designed modules for prompt customization tailored to the scenario of MLLM evaluation. Extensive experiments demonstrate the effectiveness of our approach to uncovering models' capabilities, and TP-Eval should benefit the community in developing more comprehensive and convincing MLLM evaluation benchmarks.

TP-Eval: Benut het potentieel van multimodale LLM's in evaluatie door prompts aan te passen.

TP-Eval: Tap Multimodal LLMs' Potential in Evaluation by Customizing Prompts

Samenvatting

Summary

Support