Shiksha: 인도어 언어를 위한 기술 도메인 중심 번역 데이터셋 및 모델
Shiksha: A Technical Domain focused Translation Dataset and Model for Indian Languages
December 12, 2024
저자: Advait Joglekar, Srinivasan Umesh
cs.AI
초록
신경망 기계 번역(NMT) 모델은 일반적으로 과학, 기술 및 교육 분야에 제한된 노출을 받은 데이터셋에서 훈련됩니다. 번역 모델은 따라서 일반적으로 과학적 이해나 기술적 용어가 포함된 작업에 어려움을 겪습니다. 그들의 성능은 저자원 인도어 언어에 대해 더욱 나쁜 것으로 나타났습니다. 특히 이러한 분야를 다루는 번역 데이터셋을 찾는 것은 어려운 도전을 제기합니다. 본 논문에서는 이를 해결하기 위해 8개의 인도어 언어를 포함한 2.8백만 행 이상의 고품질 영어-인디크 및 인디크-인디크 번역 쌍을 포함하는 다국어 병렬 말뭉치를 생성함으로써 이에 대처합니다. 우리는 NPTEL 비디오 강의의 인간 번역된 필기를 바이텍스트 마이닝하여 이를 달성합니다. 또한 이 코퍼스를 사용하여 NMT 모델을 세밀하게 조정하고 평가하며, 이를 통해 모든 다른 공개적으로 이용 가능한 모델들을 초과하는 성과를 얻습니다. 또한 이 인도어 언어에 대해 Flores+ 벤치마크에서 기준선을 평균적으로 2 BLEU 이상 향상시킴으로써 영역 외 번역 작업에 대한 일반화 가능성을 시연합니다. 우리는 우리의 모델과 데이터셋을 다음 링크를 통해 공개하게 되어 기쁩니다: https://huggingface.co/SPRINGLab.
English
Neural Machine Translation (NMT) models are typically trained on datasets
with limited exposure to Scientific, Technical and Educational domains.
Translation models thus, in general, struggle with tasks that involve
scientific understanding or technical jargon. Their performance is found to be
even worse for low-resource Indian languages. Finding a translation dataset
that tends to these domains in particular, poses a difficult challenge. In this
paper, we address this by creating a multilingual parallel corpus containing
more than 2.8 million rows of English-to-Indic and Indic-to-Indic high-quality
translation pairs across 8 Indian languages. We achieve this by bitext mining
human-translated transcriptions of NPTEL video lectures. We also finetune and
evaluate NMT models using this corpus and surpass all other publicly available
models at in-domain tasks. We also demonstrate the potential for generalizing
to out-of-domain translation tasks by improving the baseline by over 2 BLEU on
average for these Indian languages on the Flores+ benchmark. We are pleased to
release our model and dataset via this link: https://huggingface.co/SPRINGLab.