ChatPaper.aiChatPaper

모든 언어가 중요하다: 문화적으로 다양한 100개 언어에 대한 LMM 평가

All Languages Matter: Evaluating LMMs on Culturally Diverse 100 Languages

November 25, 2024
저자: Ashmal Vayani, Dinura Dissanayake, Hasindri Watawana, Noor Ahsan, Nevasini Sasikumar, Omkar Thawakar, Henok Biadglign Ademtew, Yahya Hmaiti, Amandeep Kumar, Kartik Kuckreja, Mykola Maslych, Wafa Al Ghallabi, Mihail Mihaylov, Chao Qin, Abdelrahman M Shaker, Mike Zhang, Mahardika Krisna Ihsani, Amiel Esplana, Monil Gokani, Shachar Mirkin, Harsh Singh, Ashay Srivastava, Endre Hamerlik, Fathinah Asma Izzati, Fadillah Adamsyah Maani, Sebastian Cavada, Jenny Chim, Rohit Gupta, Sanjay Manjunath, Kamila Zhumakhanova, Feno Heriniaina Rabevohitra, Azril Amirudin, Muhammad Ridzuan, Daniya Kareem, Ketan More, Kunyang Li, Pramesh Shakya, Muhammad Saad, Amirpouya Ghasemaghaei, Amirbek Djanibekov, Dilshod Azizov, Branislava Jankovic, Naman Bhatia, Alvaro Cabrera, Johan Obando-Ceron, Olympiah Otieno, Fabian Farestam, Muztoba Rabbani, Sanoojan Baliah, Santosh Sanjeev, Abduragim Shtanchaev, Maheen Fatima, Thao Nguyen, Amrin Kareem, Toluwani Aremu, Nathan Xavier, Amit Bhatkal, Hawau Toyin, Aman Chadha, Hisham Cholakkal, Rao Muhammad Anwer, Michael Felsberg, Jorma Laaksonen, Thamar Solorio, Monojit Choudhury, Ivan Laptev, Mubarak Shah, Salman Khan, Fahad Khan
cs.AI

초록

기존의 대형 다중모달 모델(LMMs)은 일반적으로 몇 개의 지역과 언어에만 초점을 맞추고 있습니다. LMMs가 계속 발전함에 따라 문화적 맥락을 이해하고 지역 감수성을 존중하며 저자원 언어를 지원하는 것이 점점 중요해지고 있습니다. 이 모든 것을 효과적으로 통합하면서 상응하는 시각적 단서를 효과적으로 통합하는 것이 중요합니다. 문화적으로 다양한 글로벌 다중모달 모델을 추구하기 위해 우리의 제안된 All Languages Matter Benchmark (ALM-bench)는 100개 언어를 대상으로 LMMs를 평가하기 위한 지금까지 가장 크고 포괄적인 노력을 대표합니다. ALM-bench는 기존 모델들을 도전하여 문화적으로 다양한 이미지와 텍스트를 다양한 언어로 결합한 것에 대한 이해력과 추론 능력을 테스트합니다. 이는 LMM 연구에서 일반적으로 소홀히 되는 저자원 언어를 포함한 다양한 언어로 진행됩니다. 이 벤치마크는 다양한 질문 형식을 갖춘 견고하고 세밀한 평가 프레임워크를 제공하며, 참/거짓, 객관식, 주관식 질문으로 구성되어 있습니다. 이는 또한 짧은 답변과 긴 답변으로 나뉘어져 있습니다. ALM-bench의 디자인은 시각적 및 언어적 추론의 다양한 난이도를 처리하는 모델의 능력을 포괄적으로 평가합니다. 글로벌 문화의 풍요로움을 담기 위해 ALM-bench는 전통과 의식, 유명 인물 및 축제 등 13가지 다양한 문화 측면에서 콘텐츠를 신중하게 선별합니다. 이를 통해 ALM-bench는 최첨단 오픈 및 폐쇄 소스 LMMs에 대한 엄격한 테스트 플랫폼을 제공할 뿐만 아니라 문화적 및 언어적 포용성의 중요성을 강조하며 다양한 글로벌 인구를 효과적으로 지원할 수 있는 모델의 개발을 촉진합니다. 우리의 벤치마크는 공개적으로 이용 가능합니다.
English
Existing Large Multimodal Models (LMMs) generally focus on only a few regions and languages. As LMMs continue to improve, it is increasingly important to ensure they understand cultural contexts, respect local sensitivities, and support low-resource languages, all while effectively integrating corresponding visual cues. In pursuit of culturally diverse global multimodal models, our proposed All Languages Matter Benchmark (ALM-bench) represents the largest and most comprehensive effort to date for evaluating LMMs across 100 languages. ALM-bench challenges existing models by testing their ability to understand and reason about culturally diverse images paired with text in various languages, including many low-resource languages traditionally underrepresented in LMM research. The benchmark offers a robust and nuanced evaluation framework featuring various question formats, including true/false, multiple choice, and open-ended questions, which are further divided into short and long-answer categories. ALM-bench design ensures a comprehensive assessment of a model's ability to handle varied levels of difficulty in visual and linguistic reasoning. To capture the rich tapestry of global cultures, ALM-bench carefully curates content from 13 distinct cultural aspects, ranging from traditions and rituals to famous personalities and celebrations. Through this, ALM-bench not only provides a rigorous testing ground for state-of-the-art open and closed-source LMMs but also highlights the importance of cultural and linguistic inclusivity, encouraging the development of models that can serve diverse global populations effectively. Our benchmark is publicly available.

Summary

AI-Generated Summary

PDF112November 27, 2024