언어 패밀리 전문가들의 혼합을 통해 50개 언어에 대한 의료 LLM의 효율적인 민주화
Efficiently Democratizing Medical LLMs for 50 Languages via a Mixture of Language Family Experts
October 14, 2024
저자: Guorui Zheng, Xidong Wang, Juhao Liang, Nuo Chen, Yuping Zheng, Benyou Wang
cs.AI
초록
의료용 대형 언어 모델을 현지 언어로 적응시키면 의료 서비스 이용 장벽을 줄일 수 있지만, 데이터 부족은 특히 자원 부족 언어에 대한 중요한 도전 과제로 남아 있습니다. 이를 해결하기 위해 먼저 고품질의 의료 데이터셋을 구축하고 품질을 보장하기 위한 분석을 수행합니다. 자원 부족 언어로 효율적으로 확장하기 위해 다국어 대형 언어 모델의 일반화 능력을 활용하기 위해 Mixture of Experts (MoE) 모듈러리티를 활용하여 다국어 관점에서 대형 언어 모델의 내부 정보 흐름을 탐색합니다. 기술적으로, 우리는 언어별 전문가와 교차 언어 라우팅을 활용하는 새로운 MoE 라우팅 방법을 제안합니다. 회로 이론에서 영감을 받은 우리의 라우팅 분석은 Spread Out in the End 정보 흐름 메커니즘을 밝혀냈습니다: 초기 레이어는 교차 언어 정보 흐름에 집중하는 반면, 후반 레이어는 언어별로 발산합니다. 이 통찰력은 직접적으로 다른 언어로의 다국어 모델의 일반화를 향상시키면서 해석 가능성을 유지하는 Post-MoE 아키텍처의 개발로 이어졌습니다. 실험 결과는 이 접근 방식이 다른 언어로의 다국어 모델의 일반화를 향상시키는 것을 보여줍니다. 마지막으로, 모델을 50개 언어로 효율적으로 확장하기 위해 언어 패밀리 전문가 개념을 도입하여 언어별 선호를 활용하며, 추가 매개변수를 추가하지 않고 언어 수를 확장할 수 있도록 합니다.
English
Adapting medical Large Language Models to local languages can reduce barriers
to accessing healthcare services, but data scarcity remains a significant
challenge, particularly for low-resource languages. To address this, we first
construct a high-quality medical dataset and conduct analysis to ensure its
quality. In order to leverage the generalization capability of multilingual
LLMs to efficiently scale to more resource-constrained languages, we explore
the internal information flow of LLMs from a multilingual perspective using
Mixture of Experts (MoE) modularity. Technically, we propose a novel MoE
routing method that employs language-specific experts and cross-lingual
routing. Inspired by circuit theory, our routing analysis revealed a Spread Out
in the End information flow mechanism: while earlier layers concentrate
cross-lingual information flow, the later layers exhibit language-specific
divergence. This insight directly led to the development of the Post-MoE
architecture, which applies sparse routing only in the later layers while
maintaining dense others. Experimental results demonstrate that this approach
enhances the generalization of multilingual models to other languages while
preserving interpretability. Finally, to efficiently scale the model to 50
languages, we introduce the concept of language family experts, drawing on
linguistic priors, which enables scaling the number of languages without adding
additional parameters.Summary
AI-Generated Summary