언어 패밀리 전문가들의 혼합을 통해 50개 언어에 대한 의료 LLM의 효율적인 민주화

Efficiently Democratizing Medical LLMs for 50 Languages via a Mixture of Language Family Experts

October 14, 2024
저자: Guorui Zheng, Xidong Wang, Juhao Liang, Nuo Chen, Yuping Zheng, Benyou Wang
cs.AI

초록

의료용 대형 언어 모델을 현지 언어로 적응시키면 의료 서비스 이용 장벽을 줄일 수 있지만, 데이터 부족은 특히 자원 부족 언어에 대한 중요한 도전 과제로 남아 있습니다. 이를 해결하기 위해 먼저 고품질의 의료 데이터셋을 구축하고 품질을 보장하기 위한 분석을 수행합니다. 자원 부족 언어로 효율적으로 확장하기 위해 다국어 대형 언어 모델의 일반화 능력을 활용하기 위해 Mixture of Experts (MoE) 모듈러리티를 활용하여 다국어 관점에서 대형 언어 모델의 내부 정보 흐름을 탐색합니다. 기술적으로, 우리는 언어별 전문가와 교차 언어 라우팅을 활용하는 새로운 MoE 라우팅 방법을 제안합니다. 회로 이론에서 영감을 받은 우리의 라우팅 분석은 Spread Out in the End 정보 흐름 메커니즘을 밝혀냈습니다: 초기 레이어는 교차 언어 정보 흐름에 집중하는 반면, 후반 레이어는 언어별로 발산합니다. 이 통찰력은 직접적으로 다른 언어로의 다국어 모델의 일반화를 향상시키면서 해석 가능성을 유지하는 Post-MoE 아키텍처의 개발로 이어졌습니다. 실험 결과는 이 접근 방식이 다른 언어로의 다국어 모델의 일반화를 향상시키는 것을 보여줍니다. 마지막으로, 모델을 50개 언어로 효율적으로 확장하기 위해 언어 패밀리 전문가 개념을 도입하여 언어별 선호를 활용하며, 추가 매개변수를 추가하지 않고 언어 수를 확장할 수 있도록 합니다.
English
Adapting medical Large Language Models to local languages can reduce barriers to accessing healthcare services, but data scarcity remains a significant challenge, particularly for low-resource languages. To address this, we first construct a high-quality medical dataset and conduct analysis to ensure its quality. In order to leverage the generalization capability of multilingual LLMs to efficiently scale to more resource-constrained languages, we explore the internal information flow of LLMs from a multilingual perspective using Mixture of Experts (MoE) modularity. Technically, we propose a novel MoE routing method that employs language-specific experts and cross-lingual routing. Inspired by circuit theory, our routing analysis revealed a Spread Out in the End information flow mechanism: while earlier layers concentrate cross-lingual information flow, the later layers exhibit language-specific divergence. This insight directly led to the development of the Post-MoE architecture, which applies sparse routing only in the later layers while maintaining dense others. Experimental results demonstrate that this approach enhances the generalization of multilingual models to other languages while preserving interpretability. Finally, to efficiently scale the model to 50 languages, we introduce the concept of language family experts, drawing on linguistic priors, which enables scaling the number of languages without adding additional parameters.

Summary

AI-Generated Summary

PDF372November 16, 2024