Tutte le lingue contano: Valutazione dei LMM su 100 lingue culturalmente diverse

Abstract

I modelli multimodali di grandi dimensioni (LMMs) esistenti si concentrano generalmente solo su alcune regioni e lingue. Man mano che i LMMs continuano a migliorare, è sempre più importante garantire che essi comprendano i contesti culturali, rispettino le sensibilità locali e supportino le lingue a risorse limitate, il tutto integrando efficacemente i segnali visivi corrispondenti. Nella ricerca di modelli multimodali globali culturalmente diversi, il nostro proposto All Languages Matter Benchmark (ALM-bench) rappresenta il più grande e completo sforzo ad oggi per valutare i LMMs in 100 lingue. ALM-bench sfida i modelli esistenti testando la loro capacità di comprendere e ragionare su immagini culturalmente diverse abbinate a testo in varie lingue, incluse molte lingue a risorse limitate tradizionalmente sotto-rappresentate nella ricerca sui LMMs. Il benchmark offre un quadro di valutazione robusto e sfumato con vari formati di domande, tra cui vero/falso, a scelta multipla e domande aperte, che sono ulteriormente divise in categorie di risposte brevi e lunghe. Il design di ALM-bench garantisce una valutazione completa della capacità di un modello di gestire vari livelli di difficoltà nel ragionamento visivo e linguistico. Per catturare la ricca varietà delle culture globali, ALM-bench cura attentamente i contenuti di 13 aspetti culturali distinti, che vanno dalle tradizioni e rituali alle personalità famose e celebrazioni. Attraverso questo, ALM-bench non solo fornisce un rigoroso campo di prova per i LMMs open e closed-source all'avanguardia, ma evidenzia anche l'importanza dell'inclusività culturale e linguistica, incoraggiando lo sviluppo di modelli che possano servire in modo efficace popolazioni globali diverse. Il nostro benchmark è disponibile pubblicamente.

English

Existing Large Multimodal Models (LMMs) generally focus on only a few regions and languages. As LMMs continue to improve, it is increasingly important to ensure they understand cultural contexts, respect local sensitivities, and support low-resource languages, all while effectively integrating corresponding visual cues. In pursuit of culturally diverse global multimodal models, our proposed All Languages Matter Benchmark (ALM-bench) represents the largest and most comprehensive effort to date for evaluating LMMs across 100 languages. ALM-bench challenges existing models by testing their ability to understand and reason about culturally diverse images paired with text in various languages, including many low-resource languages traditionally underrepresented in LMM research. The benchmark offers a robust and nuanced evaluation framework featuring various question formats, including true/false, multiple choice, and open-ended questions, which are further divided into short and long-answer categories. ALM-bench design ensures a comprehensive assessment of a model's ability to handle varied levels of difficulty in visual and linguistic reasoning. To capture the rich tapestry of global cultures, ALM-bench carefully curates content from 13 distinct cultural aspects, ranging from traditions and rituals to famous personalities and celebrations. Through this, ALM-bench not only provides a rigorous testing ground for state-of-the-art open and closed-source LMMs but also highlights the importance of cultural and linguistic inclusivity, encouraging the development of models that can serve diverse global populations effectively. Our benchmark is publicly available.

Tutte le lingue contano: Valutazione dei LMM su 100 lingue culturalmente diverse

All Languages Matter: Evaluating LMMs on Culturally Diverse 100 Languages

Abstract

Support