Shiksha: un dataset e modello di traduzione focalizzato sul dominio tecnico per le lingue indiane.

Shiksha: A Technical Domain focused Translation Dataset and Model for Indian Languages

December 12, 2024
Autori: Advait Joglekar, Srinivasan Umesh
cs.AI

Abstract

I modelli di Traduzione Automatica Neurale (NMT) vengono tipicamente addestrati su set di dati con limitata esposizione ai domini Scientifico, Tecnico ed Educativo. Di conseguenza, i modelli di traduzione generalmente faticano con compiti che coinvolgono la comprensione scientifica o gergo tecnico. Si è riscontrato che le loro prestazioni sono ancora peggiori per le lingue indiane a bassa risorsa. Trovare un dataset di traduzione che si occupi in particolare di questi domini rappresenta una sfida difficile. In questo articolo, affrontiamo questo problema creando un corpus parallelo multilingue contenente più di 2,8 milioni di righe di coppie di traduzione di alta qualità da Inglese a Indic e da Indic a Indic attraverso 8 lingue indiane. Raggiungiamo questo obiettivo estraendo testo bilingue dalle trascrizioni umane delle lezioni video di NPTEL. Inoltre, ottimizziamo e valutiamo i modelli NMT utilizzando questo corpus e superiamo tutti gli altri modelli disponibili pubblicamente nei compiti in-domain. Dimostriamo anche il potenziale di generalizzazione ai compiti di traduzione out-of-domain migliorando il punteggio BLEU di oltre 2 in media per queste lingue indiane sul benchmark Flores+. Siamo lieti di rendere disponibili il nostro modello e dataset tramite questo link: https://huggingface.co/SPRINGLab.
English
Neural Machine Translation (NMT) models are typically trained on datasets with limited exposure to Scientific, Technical and Educational domains. Translation models thus, in general, struggle with tasks that involve scientific understanding or technical jargon. Their performance is found to be even worse for low-resource Indian languages. Finding a translation dataset that tends to these domains in particular, poses a difficult challenge. In this paper, we address this by creating a multilingual parallel corpus containing more than 2.8 million rows of English-to-Indic and Indic-to-Indic high-quality translation pairs across 8 Indian languages. We achieve this by bitext mining human-translated transcriptions of NPTEL video lectures. We also finetune and evaluate NMT models using this corpus and surpass all other publicly available models at in-domain tasks. We also demonstrate the potential for generalizing to out-of-domain translation tasks by improving the baseline by over 2 BLEU on average for these Indian languages on the Flores+ benchmark. We are pleased to release our model and dataset via this link: https://huggingface.co/SPRINGLab.

Summary

AI-Generated Summary

PDF42December 13, 2024