Pangea : un LLM entièrement ouvert multilingue et multimodal pour 39 langues

Résumé

Malgré les récents progrès réalisés dans les grands modèles de langage multimodal (MLLM), leur développement s'est principalement concentré sur des ensembles de données et des tâches en anglais et occidentaux, laissant la plupart des langues du monde et des contextes culturels divers sous-représentés. Cet article présente Pangea, un MLLM multilingue multimodal entraîné sur PangeaIns, un ensemble de données d'instructions diversifié de 6 millions couvrant 39 langues. PangeaIns propose : 1) des instructions en anglais de haute qualité, 2) des instructions soigneusement traduites par machine, et 3) des tâches multimodales culturellement pertinentes pour garantir une couverture interculturelle. Pour évaluer rigoureusement les capacités des modèles, nous introduisons PangeaBench, un ensemble d'évaluation holistique couvrant 14 ensembles de données en 47 langues. Les résultats montrent que Pangea surpasse significativement les modèles open source existants dans des environnements multilingues et des contextes culturels divers. Des études d'ablation révèlent en outre l'importance des proportions de données en anglais, de la popularité des langues et du nombre d'échantillons d'entraînement multimodaux sur les performances globales. Nous rendons entièrement open source nos données, notre code et nos points de contrôle entraînés, afin de faciliter le développement de MLLM multilingues inclusifs et robustes, favorisant l'équité et l'accessibilité à travers un spectre linguistique et culturel plus large.

English

Despite recent advances in multimodal large language models (MLLMs), their development has predominantly focused on English- and western-centric datasets and tasks, leaving most of the world's languages and diverse cultural contexts underrepresented. This paper introduces Pangea, a multilingual multimodal LLM trained on PangeaIns, a diverse 6M instruction dataset spanning 39 languages. PangeaIns features: 1) high-quality English instructions, 2) carefully machine-translated instructions, and 3) culturally relevant multimodal tasks to ensure cross-cultural coverage. To rigorously assess models' capabilities, we introduce PangeaBench, a holistic evaluation suite encompassing 14 datasets covering 47 languages. Results show that Pangea significantly outperforms existing open-source models in multilingual settings and diverse cultural contexts. Ablation studies further reveal the importance of English data proportions, language popularity, and the number of multimodal training samples on overall performance. We fully open-source our data, code, and trained checkpoints, to facilitate the development of inclusive and robust multilingual MLLMs, promoting equity and accessibility across a broader linguistic and cultural spectrum.

Pangea : un LLM entièrement ouvert multilingue et multimodal pour 39 langues

Pangea: A Fully Open Multilingual Multimodal LLM for 39 Languages

Résumé

Support