ChatPaper.aiChatPaper

지역 지식을 활용한 다국어 언어 이해 평가

INCLUDE: Evaluating Multilingual Language Understanding with Regional Knowledge

November 29, 2024
저자: Angelika Romanou, Negar Foroutan, Anna Sotnikova, Zeming Chen, Sree Harsha Nelaturu, Shivalika Singh, Rishabh Maheshwary, Micol Altomare, Mohamed A. Haggag, Snegha A, Alfonso Amayuelas, Azril Hafizi Amirudin, Viraat Aryabumi, Danylo Boiko, Michael Chang, Jenny Chim, Gal Cohen, Aditya Kumar Dalmia, Abraham Diress, Sharad Duwal, Daniil Dzenhaliou, Daniel Fernando Erazo Florez, Fabian Farestam, Joseph Marvin Imperial, Shayekh Bin Islam, Perttu Isotalo, Maral Jabbarishiviari, Börje F. Karlsson, Eldar Khalilov, Christopher Klamm, Fajri Koto, Dominik Krzemiński, Gabriel Adriano de Melo, Syrielle Montariol, Yiyang Nan, Joel Niklaus, Jekaterina Novikova, Johan Samir Obando Ceron, Debjit Paul, Esther Ploeger, Jebish Purbey, Swati Rajwal, Selvan Sunitha Ravi, Sara Rydell, Roshan Santhosh, Drishti Sharma, Marjana Prifti Skenduli, Arshia Soltani Moakhar, Bardia Soltani Moakhar, Ran Tamir, Ayush Kumar Tarun, Azmine Toushik Wasi, Thenuka Ovin Weerasinghe, Serhan Yilmaz, Mike Zhang, Imanol Schlag, Marzieh Fadaee, Sara Hooker, Antoine Bosselut
cs.AI

초록

대형 언어 모델 (LLM)의 성능 차이는 다양한 지역에서의 효과적인 배포를 방해하여 많은 커뮤니티에서 생성적 AI 도구의 잠재적 경제적 및 사회적 가치를 저해합니다. 그러나 다양한 언어에서 기능적 LLM (\즉, 다중 언어 LLM)의 개발은 영어 이외의 언어에 대한 고품질 평가 자원의 부족으로 지연되고 있습니다. 게다가, 현재의 다중 언어 벤치마크 구축 관행은 종종 영어 자원을 번역하여 다중 언어 시스템이 사용될 환경의 지역적 및 문화적 지식을 무시합니다. 본 연구에서는 지역 시험 자료에서 197,243개의 QA 쌍으로 구성된 평가 스위트를 구축하여 다양한 지역적 맥락에서 다중 언어 LLM의 성능을 측정합니다. 저희의 새로운 자원, INCLUDE은 다중 언어 LLM의 성능을 평가하기 위한 44개의 서면 언어를 대상으로 한 종합적인 지식 및 추론 중심 벤치마크로, 실제 언어 환경에서 배포될 것으로 예상되는 곳에서의 성능을 평가합니다.
English
The performance differential of large language models (LLM) between languages hinders their effective deployment in many regions, inhibiting the potential economic and societal value of generative AI tools in many communities. However, the development of functional LLMs in many languages (\ie, multilingual LLMs) is bottlenecked by the lack of high-quality evaluation resources in languages other than English. Moreover, current practices in multilingual benchmark construction often translate English resources, ignoring the regional and cultural knowledge of the environments in which multilingual systems would be used. In this work, we construct an evaluation suite of 197,243 QA pairs from local exam sources to measure the capabilities of multilingual LLMs in a variety of regional contexts. Our novel resource, INCLUDE, is a comprehensive knowledge- and reasoning-centric benchmark across 44 written languages that evaluates multilingual LLMs for performance in the actual language environments where they would be deployed.

Summary

AI-Generated Summary

PDF112December 3, 2024