MixEval-X: Evaluaties van elk-naar-elk van mengsels van real-world data
MixEval-X: Any-to-Any Evaluations from Real-World Data Mixtures
October 17, 2024
Auteurs: Jinjie Ni, Yifan Song, Deepanway Ghosal, Bo Li, David Junhao Zhang, Xiang Yue, Fuzhao Xue, Zian Zheng, Kaichen Zhang, Mahir Shah, Kabir Jain, Yang You, Michael Shieh
cs.AI
Samenvatting
Het waarnemen en genereren van diverse modaliteiten zijn cruciaal voor AI-modellen om effectief te leren van en in te spelen op signalen uit de echte wereld, wat betrouwbare evaluaties voor hun ontwikkeling noodzakelijk maakt. We identificeren twee belangrijke problemen in de huidige evaluaties: (1) inconsistente normen, gevormd door verschillende gemeenschappen met uiteenlopende protocollen en volwassenheidsniveaus; en (2) aanzienlijke vraag-, beoordelings- en generalisatievooroordelen. Om deze aan te pakken, introduceren we MixEval-X, de eerste any-to-any benchmark in de echte wereld die is ontworpen om evaluaties over input- en outputmodaliteiten te optimaliseren en standaardiseren. We stellen multimodale benchmarkmenging en aanpassing-rectificatiepijplijnen voor om echte taakverdelingen te reconstrueren, waardoor evaluaties effectief generaliseren naar echte gebruiksgevallen. Uitgebreide meta-evaluaties tonen aan dat onze aanpak benchmarkmonsters effectief afstemt op echte taakverdelingen en dat de modelranglijsten sterk correleren met die van door de menigte-sourced echte wereld evaluaties (tot 0.98). We bieden uitgebreide leaderboards om bestaande modellen en organisaties opnieuw te rangschikken en bieden inzichten om het begrip van multimodale evaluaties te verbeteren en toekomstig onderzoek te informeren.
English
Perceiving and generating diverse modalities are crucial for AI models to
effectively learn from and engage with real-world signals, necessitating
reliable evaluations for their development. We identify two major issues in
current evaluations: (1) inconsistent standards, shaped by different
communities with varying protocols and maturity levels; and (2) significant
query, grading, and generalization biases. To address these, we introduce
MixEval-X, the first any-to-any real-world benchmark designed to optimize and
standardize evaluations across input and output modalities. We propose
multi-modal benchmark mixture and adaptation-rectification pipelines to
reconstruct real-world task distributions, ensuring evaluations generalize
effectively to real-world use cases. Extensive meta-evaluations show our
approach effectively aligns benchmark samples with real-world task
distributions and the model rankings correlate strongly with that of
crowd-sourced real-world evaluations (up to 0.98). We provide comprehensive
leaderboards to rerank existing models and organizations and offer insights to
enhance understanding of multi-modal evaluations and inform future research.Summary
AI-Generated Summary