Pangea: Ein vollständig offenes mehrsprachiges multimodales LLM für 39 Sprachen

Zusammenfassung

Trotz der jüngsten Fortschritte bei multimodalen großen Sprachmodellen (MLLMs) lag ihr Schwerpunkt bisher hauptsächlich auf englisch- und westzentrierten Datensätzen und Aufgaben, wodurch die meisten Sprachen der Welt und vielfältigen kulturellen Kontexte unterrepräsentiert sind. Dieser Artikel stellt Pangea vor, ein mehrsprachiges multimodales LLM, das auf PangeaIns trainiert wurde, einem vielfältigen 6M-Instruktionsdatensatz, der 39 Sprachen umfasst. PangeaIns umfasst: 1) hochwertige englische Anweisungen, 2) sorgfältig maschinell übersetzte Anweisungen und 3) kulturell relevante multimodale Aufgaben, um eine interkulturelle Abdeckung sicherzustellen. Zur gründlichen Bewertung der Fähigkeiten der Modelle führen wir PangeaBench ein, eine umfassende Bewertungssuite, die 14 Datensätze mit 47 Sprachen abdeckt. Die Ergebnisse zeigen, dass Pangea in mehrsprachigen Umgebungen und vielfältigen kulturellen Kontexten signifikant bessere Leistungen erbringt als bestehende Open-Source-Modelle. Ablationsstudien enthüllen weiterhin die Bedeutung von englischen Datenvolumen, Sprachpopularität und der Anzahl von multimodalen Trainingsbeispielen für die Gesamtleistung. Wir stellen unsere Daten, Codes und trainierten Checkpoints vollständig als Open Source zur Verfügung, um die Entwicklung inklusiver und robuster mehrsprachiger MLLMs zu erleichtern und die Gerechtigkeit und Zugänglichkeit über ein breiteres linguistisches und kulturelles Spektrum hinweg zu fördern.

English

Despite recent advances in multimodal large language models (MLLMs), their development has predominantly focused on English- and western-centric datasets and tasks, leaving most of the world's languages and diverse cultural contexts underrepresented. This paper introduces Pangea, a multilingual multimodal LLM trained on PangeaIns, a diverse 6M instruction dataset spanning 39 languages. PangeaIns features: 1) high-quality English instructions, 2) carefully machine-translated instructions, and 3) culturally relevant multimodal tasks to ensure cross-cultural coverage. To rigorously assess models' capabilities, we introduce PangeaBench, a holistic evaluation suite encompassing 14 datasets covering 47 languages. Results show that Pangea significantly outperforms existing open-source models in multilingual settings and diverse cultural contexts. Ablation studies further reveal the importance of English data proportions, language popularity, and the number of multimodal training samples on overall performance. We fully open-source our data, code, and trained checkpoints, to facilitate the development of inclusive and robust multilingual MLLMs, promoting equity and accessibility across a broader linguistic and cultural spectrum.

Pangea: Ein vollständig offenes mehrsprachiges multimodales LLM für 39 Sprachen

Pangea: A Fully Open Multilingual Multimodal LLM for 39 Languages

Zusammenfassung

Support