마야: 지시어 세세하게 조정된 다국어 다중 모달 모델
Maya: An Instruction Finetuned Multilingual Multimodal Model
December 10, 2024
저자: Nahid Alam, Karthik Reddy Kanjula, Surya Guthikonda, Timothy Chung, Bala Krishna S Vegesna, Abhipsha Das, Anthony Susevski, Ryan Sze-Yin Chan, S M Iftekhar Uddin, Shayekh Bin Islam, Roshan Santhosh, Snegha A, Drishti Sharma, Chen Liu, Isha Chaturvedi, Genta Indra Winata, Ashvanth. S, Snehanshu Mukherjee, Alham Fikri Aji
cs.AI
초록
대규모 Vision-Language Models (VLMs)의 신속한 발전은 주로 널리 사용되는 언어에서 학술적인 벤치마크에서 인상적인 결과를 이끌어내었습니다. 그러나 현재 VLMs의 능력에서는 낮은 자원 언어 및 다양한 문화적 맥락을 처리하는 데 중요한 간극이 남아 있습니다. 이는 고품질, 다양성 및 안전성이 검증된 데이터의 부족 때문입니다. 결과적으로 이러한 모델들은 종종 낮은 자원 언어와 문화적 뉘앙스를 독성 없이 이해하는 데 어려움을 겪습니다. 이러한 한계를 해결하기 위해 우리는 오픈 소스 Multimodal Multilingual 모델인 Maya를 소개합니다. 우리의 기여는 세 가지로 구성됩니다: 1) LLaVA 사전 학습 데이터셋을 기반으로 한 여덟 가지 언어의 다국어 이미지-텍스트 사전 학습 데이터셋; 2) LLaVA 데이터셋 내 독성에 대한 철저한 분석을 통해 여덟 가지 언어를 대상으로 독성이 없는 새로운 버전을 생성함; 그리고 3) 이러한 언어를 지원하는 다국어 이미지-텍스트 모델을 통해 시각-언어 작업에서 문화 및 언어 이해를 향상시킵니다. 코드는 https://github.com/nahidalam/maya에서 확인할 수 있습니다.
English
The rapid development of large Vision-Language Models (VLMs) has led to
impressive results on academic benchmarks, primarily in widely spoken
languages. However, significant gaps remain in the ability of current VLMs to
handle low-resource languages and varied cultural contexts, largely due to a
lack of high-quality, diverse, and safety-vetted data. Consequently, these
models often struggle to understand low-resource languages and cultural nuances
in a manner free from toxicity. To address these limitations, we introduce
Maya, an open-source Multimodal Multilingual model. Our contributions are
threefold: 1) a multilingual image-text pretraining dataset in eight languages,
based on the LLaVA pretraining dataset; 2) a thorough analysis of toxicity
within the LLaVA dataset, followed by the creation of a novel toxicity-free
version across eight languages; and 3) a multilingual image-text model
supporting these languages, enhancing cultural and linguistic comprehension in
vision-language tasks. Code available at https://github.com/nahidalam/maya.Summary
AI-Generated Summary