Pangea : un LLM entièrement ouvert multilingue et multimodal pour 39 langues
Pangea: A Fully Open Multilingual Multimodal LLM for 39 Languages
October 21, 2024
Auteurs: Xiang Yue, Yueqi Song, Akari Asai, Seungone Kim, Jean de Dieu Nyandwi, Simran Khanuja, Anjali Kantharuban, Lintang Sutawika, Sathyanarayanan Ramamoorthy, Graham Neubig
cs.AI
Résumé
Malgré les récents progrès réalisés dans les grands modèles de langage multimodal (MLLM), leur développement s'est principalement concentré sur des ensembles de données et des tâches en anglais et occidentaux, laissant la plupart des langues du monde et des contextes culturels divers sous-représentés. Cet article présente Pangea, un MLLM multilingue multimodal entraîné sur PangeaIns, un ensemble de données d'instructions diversifié de 6 millions couvrant 39 langues. PangeaIns propose : 1) des instructions en anglais de haute qualité, 2) des instructions soigneusement traduites par machine, et 3) des tâches multimodales culturellement pertinentes pour garantir une couverture interculturelle. Pour évaluer rigoureusement les capacités des modèles, nous introduisons PangeaBench, un ensemble d'évaluation holistique couvrant 14 ensembles de données en 47 langues. Les résultats montrent que Pangea surpasse significativement les modèles open source existants dans des environnements multilingues et des contextes culturels divers. Des études d'ablation révèlent en outre l'importance des proportions de données en anglais, de la popularité des langues et du nombre d'échantillons d'entraînement multimodaux sur les performances globales. Nous rendons entièrement open source nos données, notre code et nos points de contrôle entraînés, afin de faciliter le développement de MLLM multilingues inclusifs et robustes, favorisant l'équité et l'accessibilité à travers un spectre linguistique et culturel plus large.
English
Despite recent advances in multimodal large language models (MLLMs), their
development has predominantly focused on English- and western-centric datasets
and tasks, leaving most of the world's languages and diverse cultural contexts
underrepresented. This paper introduces Pangea, a multilingual multimodal LLM
trained on PangeaIns, a diverse 6M instruction dataset spanning 39 languages.
PangeaIns features: 1) high-quality English instructions, 2) carefully
machine-translated instructions, and 3) culturally relevant multimodal tasks to
ensure cross-cultural coverage. To rigorously assess models' capabilities, we
introduce PangeaBench, a holistic evaluation suite encompassing 14 datasets
covering 47 languages. Results show that Pangea significantly outperforms
existing open-source models in multilingual settings and diverse cultural
contexts. Ablation studies further reveal the importance of English data
proportions, language popularity, and the number of multimodal training samples
on overall performance. We fully open-source our data, code, and trained
checkpoints, to facilitate the development of inclusive and robust multilingual
MLLMs, promoting equity and accessibility across a broader linguistic and
cultural spectrum.Summary
AI-Generated Summary