Shiksha: un dataset e modello di traduzione focalizzato sul dominio tecnico per le lingue indiane.
Shiksha: A Technical Domain focused Translation Dataset and Model for Indian Languages
December 12, 2024
Autori: Advait Joglekar, Srinivasan Umesh
cs.AI
Abstract
I modelli di Traduzione Automatica Neurale (NMT) vengono tipicamente addestrati su set di dati con limitata esposizione ai domini Scientifico, Tecnico ed Educativo. Di conseguenza, i modelli di traduzione generalmente faticano con compiti che coinvolgono la comprensione scientifica o gergo tecnico. Si è riscontrato che le loro prestazioni sono ancora peggiori per le lingue indiane a bassa risorsa. Trovare un dataset di traduzione che si occupi in particolare di questi domini rappresenta una sfida difficile. In questo articolo, affrontiamo questo problema creando un corpus parallelo multilingue contenente più di 2,8 milioni di righe di coppie di traduzione di alta qualità da Inglese a Indic e da Indic a Indic attraverso 8 lingue indiane. Raggiungiamo questo obiettivo estraendo testo bilingue dalle trascrizioni umane delle lezioni video di NPTEL. Inoltre, ottimizziamo e valutiamo i modelli NMT utilizzando questo corpus e superiamo tutti gli altri modelli disponibili pubblicamente nei compiti in-domain. Dimostriamo anche il potenziale di generalizzazione ai compiti di traduzione out-of-domain migliorando il punteggio BLEU di oltre 2 in media per queste lingue indiane sul benchmark Flores+. Siamo lieti di rendere disponibili il nostro modello e dataset tramite questo link: https://huggingface.co/SPRINGLab.
English
Neural Machine Translation (NMT) models are typically trained on datasets
with limited exposure to Scientific, Technical and Educational domains.
Translation models thus, in general, struggle with tasks that involve
scientific understanding or technical jargon. Their performance is found to be
even worse for low-resource Indian languages. Finding a translation dataset
that tends to these domains in particular, poses a difficult challenge. In this
paper, we address this by creating a multilingual parallel corpus containing
more than 2.8 million rows of English-to-Indic and Indic-to-Indic high-quality
translation pairs across 8 Indian languages. We achieve this by bitext mining
human-translated transcriptions of NPTEL video lectures. We also finetune and
evaluate NMT models using this corpus and surpass all other publicly available
models at in-domain tasks. We also demonstrate the potential for generalizing
to out-of-domain translation tasks by improving the baseline by over 2 BLEU on
average for these Indian languages on the Flores+ benchmark. We are pleased to
release our model and dataset via this link: https://huggingface.co/SPRINGLab.Summary
AI-Generated Summary