Maya: Un modello multilingue multimodale raffinato mediante istruzioni
Maya: An Instruction Finetuned Multilingual Multimodal Model
December 10, 2024
Autori: Nahid Alam, Karthik Reddy Kanjula, Surya Guthikonda, Timothy Chung, Bala Krishna S Vegesna, Abhipsha Das, Anthony Susevski, Ryan Sze-Yin Chan, S M Iftekhar Uddin, Shayekh Bin Islam, Roshan Santhosh, Snegha A, Drishti Sharma, Chen Liu, Isha Chaturvedi, Genta Indra Winata, Ashvanth. S, Snehanshu Mukherjee, Alham Fikri Aji
cs.AI
Abstract
Lo sviluppo rapido dei grandi Modelli Visione-Linguaggio (VLM) ha portato a risultati impressionanti su benchmark accademici, principalmente nelle lingue ampiamente parlate. Tuttavia, rimangono significativi vuoti nella capacità dei VLM attuali di gestire lingue a risorse limitate e contesti culturali variati, principalmente a causa della mancanza di dati di alta qualità, diversificati e verificati per la sicurezza. Di conseguenza, questi modelli spesso faticano a comprendere le lingue a risorse limitate e le sfumature culturali in modo privo di tossicità. Per affrontare queste limitazioni, presentiamo Maya, un modello Multimodale Multilingue open-source. Le nostre contribuzioni sono tre: 1) un dataset di preaddestramento immagine-testo multilingue in otto lingue, basato sul dataset di preaddestramento LLaVA; 2) un'analisi approfondita della tossicità all'interno del dataset LLaVA, seguita dalla creazione di una versione priva di tossicità in otto lingue; e 3) un modello immagine-testo multilingue che supporta queste lingues, migliorando la comprensione culturale e linguistica nei compiti visione-linguaggio. Codice disponibile su https://github.com/nahidalam/maya.
English
The rapid development of large Vision-Language Models (VLMs) has led to
impressive results on academic benchmarks, primarily in widely spoken
languages. However, significant gaps remain in the ability of current VLMs to
handle low-resource languages and varied cultural contexts, largely due to a
lack of high-quality, diverse, and safety-vetted data. Consequently, these
models often struggle to understand low-resource languages and cultural nuances
in a manner free from toxicity. To address these limitations, we introduce
Maya, an open-source Multimodal Multilingual model. Our contributions are
threefold: 1) a multilingual image-text pretraining dataset in eight languages,
based on the LLaVA pretraining dataset; 2) a thorough analysis of toxicity
within the LLaVA dataset, followed by the creation of a novel toxicity-free
version across eight languages; and 3) a multilingual image-text model
supporting these languages, enhancing cultural and linguistic comprehension in
vision-language tasks. Code available at https://github.com/nahidalam/maya.Summary
AI-Generated Summary