Fietje: 네덜란드어를 위한 개방적이고 효율적인 LLM
Fietje: An open, efficient LLM for Dutch
December 19, 2024
저자: Bram Vanroy
cs.AI
초록
본 논문은 네덜란드어를 위해 특별히 설계된 소형 언어 모델(SLM) 패밀리인 Fietje를 소개합니다. 이 모델은 2.7 억 개의 매개변수를 가진 영어 중심 모델인 Phi 2를 기반으로 합니다. Fietje는 출시 시 더 큰 언어 모델들과 경쟁력 있는 결과를 보여주었습니다. 본 연구의 핵심은 투명성과 재현성에 있습니다. Fietje는 완전히 오픈 소스로, 모델 가중치, 데이터셋, 훈련 및 평가 코드가 모두 공개적으로 접근 가능합니다.
본 논문은 Fietje와 다른 여러 모델의 성능에 대해 논의하며, 추론, 감성 분석, 세계 지식, 언어 수용성 및 단어 의미 해석의 벤치마킹 평가 스위트에서의 결과를 다룹니다. 평가 결과는 최근의 소형 모델이 네덜란드어에 대해 세밀하게 조정된 더 큰 모델들을 능가하는 것을 보여주며, 이는 네덜란드어 처리 분야에서의 신속한 진전을 보여줍니다. 이러한 추세는 네덜란드어 처리에 대한 흥미로운 미래를 시사하며, 심지어 간결한 대형 언어 모델들도 점점 더 능력을 키우고 있다는 가능성을 시사합니다.
뿐만 아니라, 네덜란드어에 대한 대형 언어 모델의 적응을 위한 계속되는 노력과 미래 계획은 이러한 모델들을 더욱 향상시켜, 적용 가능성과 접근성을 확대할 것으로 전망됩니다. Fietje는 네덜란드어 사용자들을 위한 언어 기술 접근성 향상을 위한 중간 단계에 불과합니다.
English
This paper introduces Fietje, a family of small language models (SLMs)
specifically designed for the Dutch language. The model is based on Phi 2, an
English-centric model of 2.7 billion parameters. Fietje demonstrated
competitive results with larger language models upon its release. A core
emphasis of this work is transparency and reproducibility: Fietje is fully
open-source, with model weights, datasets, training, and evaluation code all
publicly accessible.
The paper discusses the performance of Fietje and many other models on an
extensive evaluation suite of benchmarks on reasoning, sentiment analysis,
world knowledge, linguistic acceptability and word sense disambiguation.
Evaluation results illustrate the rapid progress in the field of LLMs, where
recent small models outperform older, larger models that were fine-tuned for
Dutch. This trend signals an exciting future for Dutch language processing,
suggesting that even compact LLMs are becoming increasingly capable.
Furthermore, ongoing and future efforts to adapt LLMs to Dutch are poised to
enhance these models even further, broadening their applicability and
accessibility. Fietje is only an intermediate step in improving accessibility
to language technology for users of the Dutch language.