ChatPaper.aiChatPaper

다국어 인코더가 생각보다 더 많이 알고 있다: 극도로 낮은 자원 언어를 위한 공유 가중치 사전 학습

Multilingual Encoder Knows more than You Realize: Shared Weights Pretraining for Extremely Low-Resource Languages

February 15, 2025
저자: Zeli Su, Ziyin Zhang, Guixian Xu, Jianing Liu, XU Han, Ting Zhang, Yushuang Dong
cs.AI

초록

XLM-R와 같은 다국어 언어 모델이 NLP 분야에서 다국어 처리 능력을 크게 발전시켰음에도 불구하고, 극단적으로 자원이 부족한 언어에서는 여전히 낮은 성능을 보입니다. 이러한 상황은 LLaMA와 Qwen과 같은 현대의 대형 언어 모델(LLM)이 XLM-R보다 훨씬 적은 수의 언어를 지원함에 따라 더욱 악화되고 있으며, 이로 인해 전 세계 많은 언어에 대한 텍스트 생성 모델이 사실상 존재하지 않는 실정입니다. 이러한 문제를 해결하기 위해, 우리는 극단적으로 자원이 부족한 언어에서 텍스트 생성을 위해 다국어 인코더를 적응시키는 새로운 프레임워크를 제안합니다. 인코더와 디코더 간의 가중치를 재사용함으로써, 이 프레임워크는 모델이 인코더의 학습된 의미 공간을 활용할 수 있게 하여, 자원이 부족한 언어에서도 효율적인 학습과 효과적인 일반화를 가능하게 합니다. 이 프레임워크를 중국의 네 가지 소수 민족 언어에 적용하여 XLM-SWCM을 개발했으며, 훨씬 더 큰 모델과 비교해도 다양한 다운스트림 작업에서 우수한 성능을 입증했습니다.
English
While multilingual language models like XLM-R have advanced multilingualism in NLP, they still perform poorly in extremely low-resource languages. This situation is exacerbated by the fact that modern LLMs such as LLaMA and Qwen support far fewer languages than XLM-R, making text generation models non-existent for many languages in the world. To tackle this challenge, we propose a novel framework for adapting multilingual encoders to text generation in extremely low-resource languages. By reusing the weights between the encoder and the decoder, our framework allows the model to leverage the learned semantic space of the encoder, enabling efficient learning and effective generalization in low-resource languages. Applying this framework to four Chinese minority languages, we present XLM-SWCM, and demonstrate its superior performance on various downstream tasks even when compared with much larger models.

Summary

AI-Generated Summary

PDF22February 19, 2025