HumanEval-V: Het evalueren van visueel begrip en redeneervaardigheden van grote multimodale modellen via codeertaken
HumanEval-V: Evaluating Visual Understanding and Reasoning Abilities of Large Multimodal Models Through Coding Tasks
October 16, 2024
Auteurs: Fengji Zhang, Linquan Wu, Huiyu Bai, Guancheng Lin, Xiao Li, Xiao Yu, Yue Wang, Bei Chen, Jacky Keung
cs.AI
Samenvatting
Het uitvoeren van programmeertaken is waardevol gebleken voor het evalueren van Grote Taalmodellen (LLM's), omdat ze de begrip van hoog-niveau instructies, complex redeneren en de implementatie van functionele programma's vereisen - kernvaardigheden voor de vooruitgang van Kunstmatige Algemene Intelligentie. Ondanks de vooruitgang in Grote Multimodale Modellen (LMM's), die LLM's uitbreiden met visuele waarneming en begripsvaardigheden, blijft er een opmerkelijk gebrek aan programmeerbenchmarks die deze modellen grondig beoordelen, met name in taken die visueel redeneren benadrukken. Om deze lacune aan te pakken, introduceren we HumanEval-V, een nieuw en lichtgewicht benchmark specifiek ontworpen om de visuele begrips- en redeneervaardigheden van LMM's te evalueren via codegeneratie. HumanEval-V bevat 108 zorgvuldig samengestelde, instapniveau Python programmeertaken afgeleid van platforms zoals CodeForces en Stack Overflow. Elke taak is aangepast door de context en algoritmische patronen van de oorspronkelijke problemen te wijzigen, waarbij visuele elementen opnieuw getekend zijn om onderscheid te waarborgen van de bron, om mogelijke datalekken te voorkomen. LMM's moeten de codeoplossing voltooien op basis van de verstrekte visuele context en een vooraf gedefinieerde Python functiehandtekening waarin de taakeisen worden beschreven. Elke taak is voorzien van zorgvuldig met de hand gemaakte testgevallen om een grondige en betrouwbare evaluatie van door het model gegenereerde oplossingen te garanderen. We evalueren 19 toonaangevende LMM's met behulp van HumanEval-V en onthullen significante uitdagingen. Eigen modellen zoals GPT-4o behalen slechts 13% pass@1 en 36,4% pass@10, terwijl open-gewicht modellen met 70B parameters onder de 4% pass@1 scoren. Ablatiestudies onthullen verder de beperkingen van huidige LMM's in visueel redeneren en programmeervaardigheden. Deze resultaten benadrukken belangrijke gebieden voor toekomstig onderzoek om de capaciteiten van LMM's te verbeteren. We hebben onze code en benchmark openbaar gemaakt op https://github.com/HumanEval-V/HumanEval-V-Benchmark.
English
Coding tasks have been valuable for evaluating Large Language Models (LLMs),
as they demand the comprehension of high-level instructions, complex reasoning,
and the implementation of functional programs -- core capabilities for
advancing Artificial General Intelligence. Despite the progress in Large
Multimodal Models (LMMs), which extend LLMs with visual perception and
understanding capabilities, there remains a notable lack of coding benchmarks
that rigorously assess these models, particularly in tasks that emphasize
visual reasoning. To address this gap, we introduce HumanEval-V, a novel and
lightweight benchmark specifically designed to evaluate LMMs' visual
understanding and reasoning capabilities through code generation. HumanEval-V
includes 108 carefully crafted, entry-level Python coding tasks derived from
platforms like CodeForces and Stack Overflow. Each task is adapted by modifying
the context and algorithmic patterns of the original problems, with visual
elements redrawn to ensure distinction from the source, preventing potential
data leakage. LMMs are required to complete the code solution based on the
provided visual context and a predefined Python function signature outlining
the task requirements. Every task is equipped with meticulously handcrafted
test cases to ensure a thorough and reliable evaluation of model-generated
solutions. We evaluate 19 state-of-the-art LMMs using HumanEval-V, uncovering
significant challenges. Proprietary models like GPT-4o achieve only 13% pass@1
and 36.4% pass@10, while open-weight models with 70B parameters score below 4%
pass@1. Ablation studies further reveal the limitations of current LMMs in
vision reasoning and coding capabilities. These results underscore key areas
for future research to enhance LMMs' capabilities. We have open-sourced our
code and benchmark at https://github.com/HumanEval-V/HumanEval-V-Benchmark.Summary
AI-Generated Summary