Falen met vooruitgang: Het verbeteren van generatieve foutcorrectie voor ASR met synthetische gegevens en versterking van ophalen.

Samenvatting

Generatieve Foutcorrectie (GEC) is naar voren gekomen als een krachtige post-processing methode om de prestaties van Automatische Spraakherkenning (ASR) systemen te verbeteren. We tonen echter aan dat GEC-modellen moeite hebben om verder te generaliseren dan de specifieke soorten fouten die tijdens de training worden tegenkomen, waardoor hun vermogen om nieuwe, ongeziene fouten tijdens testtijd te corrigeren beperkt wordt, met name in out-of-domain (OOD) scenario's. Dit fenomeen versterkt zich met genoemde entiteiten (NEs), waarbij, naast onvoldoende contextuele informatie of kennis over de NEs, nieuwe NEs blijven opduiken. Om deze problemen aan te pakken, stellen we DARAG (Data- en Retrieval-Augmented Generatieve Foutcorrectie) voor, een nieuw benadering ontworpen om GEC te verbeteren voor ASR in in-domain (ID) en OOD scenario's. We breiden de GEC-trainingsdataset uit met synthetische data gegenereerd door LLM's en tekst-naar-spraak modellen aan te moedigen, waardoor extra fouten worden gesimuleerd waarvan het model kan leren. Voor OOD scenario's simuleren we testtijd fouten van nieuwe domeinen op een vergelijkbare en ongesuperviseerde manier. Daarnaast introduceren we, om genoemde entiteiten beter te behandelen, retrieval-augmented correctie door de invoer aan te vullen met entiteiten die zijn opgehaald uit een database. Onze benadering is eenvoudig, schaalbaar en zowel domein- als taalonafhankelijk. We voeren experimenten uit op meerdere datasets en instellingen, waarbij we aantonen dat DARAG al onze baselines overtreft, met 8\% -- 30\% relatieve WER-verbeteringen in ID en 10\% -- 33\% verbeteringen in OOD-instellingen.

English

Generative Error Correction (GEC) has emerged as a powerful post-processing method to enhance the performance of Automatic Speech Recognition (ASR) systems. However, we show that GEC models struggle to generalize beyond the specific types of errors encountered during training, limiting their ability to correct new, unseen errors at test time, particularly in out-of-domain (OOD) scenarios. This phenomenon amplifies with named entities (NEs), where, in addition to insufficient contextual information or knowledge about the NEs, novel NEs keep emerging. To address these issues, we propose DARAG (Data- and Retrieval-Augmented Generative Error Correction), a novel approach designed to improve GEC for ASR in in-domain (ID) and OOD scenarios. We augment the GEC training dataset with synthetic data generated by prompting LLMs and text-to-speech models, thereby simulating additional errors from which the model can learn. For OOD scenarios, we simulate test-time errors from new domains similarly and in an unsupervised fashion. Additionally, to better handle named entities, we introduce retrieval-augmented correction by augmenting the input with entities retrieved from a database. Our approach is simple, scalable, and both domain- and language-agnostic. We experiment on multiple datasets and settings, showing that DARAG outperforms all our baselines, achieving 8\% -- 30\% relative WER improvements in ID and 10\% -- 33\% improvements in OOD settings.

Falen met vooruitgang: Het verbeteren van generatieve foutcorrectie voor ASR met synthetische gegevens en versterking van ophalen.

Failing Forward: Improving Generative Error Correction for ASR with Synthetic Data and Retrieval Augmentation

Samenvatting

Support