Pangea: Ein vollständig offenes mehrsprachiges multimodales LLM für 39 Sprachen
Pangea: A Fully Open Multilingual Multimodal LLM for 39 Languages
October 21, 2024
Autoren: Xiang Yue, Yueqi Song, Akari Asai, Seungone Kim, Jean de Dieu Nyandwi, Simran Khanuja, Anjali Kantharuban, Lintang Sutawika, Sathyanarayanan Ramamoorthy, Graham Neubig
cs.AI
Zusammenfassung
Trotz der jüngsten Fortschritte bei multimodalen großen Sprachmodellen (MLLMs) lag ihr Schwerpunkt bisher hauptsächlich auf englisch- und westzentrierten Datensätzen und Aufgaben, wodurch die meisten Sprachen der Welt und vielfältigen kulturellen Kontexte unterrepräsentiert sind. Dieser Artikel stellt Pangea vor, ein mehrsprachiges multimodales LLM, das auf PangeaIns trainiert wurde, einem vielfältigen 6M-Instruktionsdatensatz, der 39 Sprachen umfasst. PangeaIns umfasst: 1) hochwertige englische Anweisungen, 2) sorgfältig maschinell übersetzte Anweisungen und 3) kulturell relevante multimodale Aufgaben, um eine interkulturelle Abdeckung sicherzustellen. Zur gründlichen Bewertung der Fähigkeiten der Modelle führen wir PangeaBench ein, eine umfassende Bewertungssuite, die 14 Datensätze mit 47 Sprachen abdeckt. Die Ergebnisse zeigen, dass Pangea in mehrsprachigen Umgebungen und vielfältigen kulturellen Kontexten signifikant bessere Leistungen erbringt als bestehende Open-Source-Modelle. Ablationsstudien enthüllen weiterhin die Bedeutung von englischen Datenvolumen, Sprachpopularität und der Anzahl von multimodalen Trainingsbeispielen für die Gesamtleistung. Wir stellen unsere Daten, Codes und trainierten Checkpoints vollständig als Open Source zur Verfügung, um die Entwicklung inklusiver und robuster mehrsprachiger MLLMs zu erleichtern und die Gerechtigkeit und Zugänglichkeit über ein breiteres linguistisches und kulturelles Spektrum hinweg zu fördern.
English
Despite recent advances in multimodal large language models (MLLMs), their
development has predominantly focused on English- and western-centric datasets
and tasks, leaving most of the world's languages and diverse cultural contexts
underrepresented. This paper introduces Pangea, a multilingual multimodal LLM
trained on PangeaIns, a diverse 6M instruction dataset spanning 39 languages.
PangeaIns features: 1) high-quality English instructions, 2) carefully
machine-translated instructions, and 3) culturally relevant multimodal tasks to
ensure cross-cultural coverage. To rigorously assess models' capabilities, we
introduce PangeaBench, a holistic evaluation suite encompassing 14 datasets
covering 47 languages. Results show that Pangea significantly outperforms
existing open-source models in multilingual settings and diverse cultural
contexts. Ablation studies further reveal the importance of English data
proportions, language popularity, and the number of multimodal training samples
on overall performance. We fully open-source our data, code, and trained
checkpoints, to facilitate the development of inclusive and robust multilingual
MLLMs, promoting equity and accessibility across a broader linguistic and
cultural spectrum.Summary
AI-Generated Summary