ChatPaper.aiChatPaper

IndicMMLU-Pro: 다중 작업 언어 이해를 위한 인디크 대형 언어 모델의 벤치마킹

IndicMMLU-Pro: Benchmarking Indic Large Language Models on Multi-Task Language Understanding

January 27, 2025
저자: Sankalp KJ, Ashutosh Kumar, Laxmaan Balaji, Nikunj Kotecha, Vinija Jain, Aman Chadha, Sreyoshi Bhaduri
cs.AI

초록

인도 하위대륙에서 15억 명 이상의 사람들에 의해 알려진 인디크 언어는 그들의 풍부한 문화 유산, 언어 다양성, 그리고 복잡한 구조로 인해 자연어 처리(NLP) 연구에 독특한 도전과 기회를 제공합니다. IndicMMLU-Pro는 인디크 언어 전반에 걸쳐 대형 언어 모델(LLMs)을 평가하기 위해 설계된 포괄적인 벤치마크로, Massive Multitask Language Understanding(MMLU Pro) 프레임워크를 기반으로 합니다. 힌디어, 벵골어, 구자라트어, 마라티어, 칸나다어, 펀자브어, 타밀어, 텔루구어, 우르두어와 같은 주요 언어를 다루며, 저희의 벤치마크는 인도 하위대륙의 언어 다양성이 제시하는 독특한 도전과 기회에 대응합니다. 이 벤치마크는 인도어의 복잡성을 포착하기 위해 세심하게 설계된 언어 이해, 추론, 생성과 같은 다양한 작업을 포함하고 있습니다. IndicMMLU-Pro는 인디크 언어 인공지능 연구의 연구 경계를 넓히기 위한 표준화된 평가 프레임워크를 제공하여, 보다 정확하고 효율적이며 문화적으로 민감한 모델의 개발을 용이하게 합니다. 본 논문은 벤치마크의 설계 원칙, 작업 분류 체계, 데이터 수집 방법론을 개요하고, 최첨단 다국어 모델로부터의 기준 결과를 제시합니다.
English
Known by more than 1.5 billion people in the Indian subcontinent, Indic languages present unique challenges and opportunities for natural language processing (NLP) research due to their rich cultural heritage, linguistic diversity, and complex structures. IndicMMLU-Pro is a comprehensive benchmark designed to evaluate Large Language Models (LLMs) across Indic languages, building upon the MMLU Pro (Massive Multitask Language Understanding) framework. Covering major languages such as Hindi, Bengali, Gujarati, Marathi, Kannada, Punjabi, Tamil, Telugu, and Urdu, our benchmark addresses the unique challenges and opportunities presented by the linguistic diversity of the Indian subcontinent. This benchmark encompasses a wide range of tasks in language comprehension, reasoning, and generation, meticulously crafted to capture the intricacies of Indian languages. IndicMMLU-Pro provides a standardized evaluation framework to push the research boundaries in Indic language AI, facilitating the development of more accurate, efficient, and culturally sensitive models. This paper outlines the benchmarks' design principles, task taxonomy, and data collection methodology, and presents baseline results from state-of-the-art multilingual models.

Summary

AI-Generated Summary

PDF72January 29, 2025