ChatPaper.aiChatPaper

유로LLM: 유럽을 위한 다국어 언어 모델

EuroLLM: Multilingual Language Models for Europe

September 24, 2024
저자: Pedro Henrique Martins, Patrick Fernandes, João Alves, Nuno M. Guerreiro, Ricardo Rei, Duarte M. Alves, José Pombal, Amin Farajian, Manuel Faysse, Mateusz Klimaszewski, Pierre Colombo, Barry Haddow, José G. C. de Souza, Alexandra Birch, André F. T. Martins
cs.AI

초록

오픈 웨이트 LLM의 품질은 상당히 향상되었지만, 여전히 주로 영어에 초점을 맞추고 있습니다. 본 논문에서는 유럽LLM 프로젝트를 소개하며, 모든 유럽 연합 공식 언어뿐만 아니라 여러 추가 관련 언어에서 텍스트를 이해하고 생성할 수 있는 오픈 웨이트 다국어 LLM 스위트를 개발하는 것을 목표로 합니다. 우리는 오늘까지 이루어진 진전을 개요로 설명하며, 데이터 수집 및 필터링 과정, 스케일링 법칙의 개발, 다국어 토크나이저의 생성, 그리고 데이터 혼합 및 모델링 구성에 대해 상세히 다룹니다. 더불어, 초기 모델인 EuroLLM-1.7B 및 EuroLLM-1.7B-Instruct를 공개하고, 다국어 일반 벤치마크 및 기계 번역에서의 성능을 보고합니다.
English
The quality of open-weight LLMs has seen significant improvement, yet they remain predominantly focused on English. In this paper, we introduce the EuroLLM project, aimed at developing a suite of open-weight multilingual LLMs capable of understanding and generating text in all official European Union languages, as well as several additional relevant languages. We outline the progress made to date, detailing our data collection and filtering process, the development of scaling laws, the creation of our multilingual tokenizer, and the data mix and modeling configurations. Additionally, we release our initial models: EuroLLM-1.7B and EuroLLM-1.7B-Instruct and report their performance on multilingual general benchmarks and machine translation.

Summary

AI-Generated Summary

PDF264November 16, 2024