ChatPaper.aiChatPaper

Whisper-LM: Miglioramento dei Modelli ASR con Modelli Linguistici per Lingue a Risorse Limitare

Whisper-LM: Improving ASR Models with Language Models for Low-Resource Languages

March 30, 2025
Autori: Xabier de Zuazo, Eva Navas, Ibon Saratxaga, Inma Hernáez Rioja
cs.AI

Abstract

I sistemi di riconoscimento vocale automatico hanno indubbiamente fatto progressi con l'integrazione di modelli multilingue e multitask come Whisper, che hanno dimostrato una promettente capacità di comprendere e processare il parlato in un'ampia gamma di lingue. Nonostante la loro robustezza, questi modelli spesso non riescono a gestire le distinzioni linguistiche delle lingue minoritarie. Questo studio affronta tale lacuna integrando modelli linguistici tradizionali e innovativi con modelli Whisper ottimizzati per migliorare le loro prestazioni nelle lingue meno studiate. Attraverso un rigoroso processo di ottimizzazione e valutazione su più dataset, dimostriamo miglioramenti significativi nel tasso di errore sulle parole, specialmente in scenari con risorse limitate. Il nostro approccio non solo sfrutta i vasti dati su cui Whisper è stato pre-addestrato, ma ne completa anche l'adattabilità linguistica incorporando modelli linguistici. Abbiamo ottenuto miglioramenti fino al 51\% per dataset in-distribuzione e fino al 34\% per frasi out-of-distribution utilizzando modelli linguistici statistici, mentre i grandi modelli linguistici hanno fornito miglioramenti moderati ma costantemente robusti in contesti linguistici diversi. I risultati rivelano che, sebbene l'integrazione apporti benefici affidabili per tutte le dimensioni dei modelli, l'entità del miglioramento varia, sottolineando l'importanza di parametri ottimizzati per i modelli linguistici. Infine, evidenziamo l'importanza di selezionare parametri di valutazione appropriati quando si riportano i risultati utilizzando modelli ASR basati su transformer. In sintesi, questa ricerca apre la strada a tecnologie ASR più inclusive che performano meglio in diverse lingue arricchendo la loro conoscenza linguistica. Per ulteriori dettagli implementativi di questo studio, la documentazione tecnica e il codice sorgente sono disponibili all'indirizzo http://www.github.com/hitz-zentroa/whisper-lm.
English
Automatic speech recognition systems have undoubtedly advanced with the integration of multilingual and multitask models such as Whisper, which have shown a promising ability to understand and process speech across a wide range of languages. Despite their robustness, these models often fall short in handling the linguistic distinctions of minority languages. This study addresses this gap by integrating traditional and novel language models with fine-tuned Whisper models to raise their performance in less commonly studied languages. Through rigorous fine-tuning and evaluation across multiple datasets, we demonstrate substantial improvements in word error rate, particularly in low-resource scenarios. Our approach not only does take advantage of the extensive data Whisper was pre-trained on, but also complements its linguistic adaptability by incorporating language models. We obtained improvements up to 51\% for in-distribution datasets and up to 34\% for out-of-distribution sentences using statistical language models, while large language models provided moderate but consistently robust improvement across diverse linguistic contexts. The findings reveal that, while the integration reliably benefits all model sizes, the extent of improvement varies, highlighting the importance of optimized language model parameters. Finally, we emphasize the importance of selecting appropriate evaluation parameters when reporting the results using transformer-based ASR models. In summary, this research clears the way for more inclusive ASR technologies that perform better across languages by enriching their linguistic knowledge. For further implementation details of this study, the technical documentation and source code are available at http://www.github.com/hitz-zentroa/whisper-lm.

Summary

AI-Generated Summary

PDF103April 4, 2025