의료 분야의 언어 장벽 극복: 아랍어 LLMs에 대한 연구
Bridging Language Barriers in Healthcare: A Study on Arabic LLMs
January 16, 2025
저자: Nada Saadi, Tathagata Raha, Clément Christophe, Marco AF Pimentel, Ronnie Rajan, Praveen K Kanithi
cs.AI
초록
본 논문은 다국어 이해와 의학 지식에 능통한 대규모 언어 모델(LLMs)을 개발하는 데 직면하는 어려움을 조사합니다. 우리는 단순히 의료 데이터를 번역하는 것만으로는 목표 언어의 임상 작업에서 강력한 성능을 보장할 수 없음을 입증합니다. 실험 결과를 통해 훈련 데이터에서의 최적 언어 조합이 다양한 의료 작업에 따라 상당히 다르다는 것을 밝혀냅니다. 저희는 조화롭게 조정된 언어 비율을 갖춘 더 큰 모델이 모국어 임상 작업에서 우수한 성능을 달성한다는 것을 발견했습니다. 게다가, 우리의 결과는 단순한 파인 튜닝에만 의존하는 것이 LLMs에 새로운 언어 지식을 통합하는 가장 효과적인 방법이 아닐 수 있다는 것을 시사합니다. 대신, 데이터와 계산 집약적인 사전 훈련 방법이 여전히 다국어 의료 환경에서 최적의 성능을 달성하는 데 필요할 수 있습니다. 이러한 발견들은 다양한 언어 커뮤니티를 위한 효과적이고 포괄적인 의료 AI 시스템을 구축하는 데 유용한 지침을 제공합니다.
English
This paper investigates the challenges of developing large language models
(LLMs) proficient in both multilingual understanding and medical knowledge. We
demonstrate that simply translating medical data does not guarantee strong
performance on clinical tasks in the target language. Our experiments reveal
that the optimal language mix in training data varies significantly across
different medical tasks. We find that larger models with carefully calibrated
language ratios achieve superior performance on native-language clinical tasks.
Furthermore, our results suggest that relying solely on fine-tuning may not be
the most effective approach for incorporating new language knowledge into LLMs.
Instead, data and computationally intensive pretraining methods may still be
necessary to achieve optimal performance in multilingual medical settings.
These findings provide valuable guidance for building effective and inclusive
medical AI systems for diverse linguistic communities.Summary
AI-Generated Summary