MixEval-X: Evaluaties van elk-naar-elk van mengsels van real-world data

Samenvatting

Het waarnemen en genereren van diverse modaliteiten zijn cruciaal voor AI-modellen om effectief te leren van en in te spelen op signalen uit de echte wereld, wat betrouwbare evaluaties voor hun ontwikkeling noodzakelijk maakt. We identificeren twee belangrijke problemen in de huidige evaluaties: (1) inconsistente normen, gevormd door verschillende gemeenschappen met uiteenlopende protocollen en volwassenheidsniveaus; en (2) aanzienlijke vraag-, beoordelings- en generalisatievooroordelen. Om deze aan te pakken, introduceren we MixEval-X, de eerste any-to-any benchmark in de echte wereld die is ontworpen om evaluaties over input- en outputmodaliteiten te optimaliseren en standaardiseren. We stellen multimodale benchmarkmenging en aanpassing-rectificatiepijplijnen voor om echte taakverdelingen te reconstrueren, waardoor evaluaties effectief generaliseren naar echte gebruiksgevallen. Uitgebreide meta-evaluaties tonen aan dat onze aanpak benchmarkmonsters effectief afstemt op echte taakverdelingen en dat de modelranglijsten sterk correleren met die van door de menigte-sourced echte wereld evaluaties (tot 0.98). We bieden uitgebreide leaderboards om bestaande modellen en organisaties opnieuw te rangschikken en bieden inzichten om het begrip van multimodale evaluaties te verbeteren en toekomstig onderzoek te informeren.

English

Perceiving and generating diverse modalities are crucial for AI models to effectively learn from and engage with real-world signals, necessitating reliable evaluations for their development. We identify two major issues in current evaluations: (1) inconsistent standards, shaped by different communities with varying protocols and maturity levels; and (2) significant query, grading, and generalization biases. To address these, we introduce MixEval-X, the first any-to-any real-world benchmark designed to optimize and standardize evaluations across input and output modalities. We propose multi-modal benchmark mixture and adaptation-rectification pipelines to reconstruct real-world task distributions, ensuring evaluations generalize effectively to real-world use cases. Extensive meta-evaluations show our approach effectively aligns benchmark samples with real-world task distributions and the model rankings correlate strongly with that of crowd-sourced real-world evaluations (up to 0.98). We provide comprehensive leaderboards to rerank existing models and organizations and offer insights to enhance understanding of multi-modal evaluations and inform future research.

MixEval-X: Evaluaties van elk-naar-elk van mengsels van real-world data

MixEval-X: Any-to-Any Evaluations from Real-World Data Mixtures

Samenvatting

Support