전진하는 실패: 합성 데이터와 검색 보강을 활용한 ASR을 위한 생성적 오류 교정 개선
Failing Forward: Improving Generative Error Correction for ASR with Synthetic Data and Retrieval Augmentation
October 17, 2024
저자: Sreyan Ghosh, Mohammad Sadegh Rasooli, Michael Levit, Peidong Wang, Jian Xue, Dinesh Manocha, Jinyu Li
cs.AI
초록
생성적 오류 교정(GEC)은 자동 음성 인식(ASR) 시스템의 성능을 향상시키기 위한 강력한 후처리 방법으로 등장했습니다. 그러나 우리는 GEC 모델이 훈련 중에 만난 특정 유형의 오류를 넘어서는 일반화에 어려움을 겪는다는 것을 보여주었습니다. 이는 테스트 시간에 새로운, 보지 못한 오류를 특히 도메인을 벗어난(OOD) 시나리오에서 수정하는 능력을 제한합니다. 이 현상은 명명된 엔티티(NEs)에서 더욱 심해지는데, NEs에 대한 충분한 문맥 정보나 지식 외에도 새로운 NEs가 계속해서 등장합니다. 이러한 문제를 해결하기 위해 우리는 DARAG(Data- and Retrieval-Augmented Generative Error Correction)를 제안합니다. 이는 ID 및 OOD 시나리오에서 ASR을 위해 GEC를 개선하기 위한 혁신적인 접근 방식입니다. 우리는 LLMs와 텍스트 음성 모델을 유도하여 생성된 합성 데이터로 GEC 훈련 데이터셋을 보강하여 모델이 학습할 수 있는 추가적인 오류를 모방합니다. OOD 시나리오에서는 새로운 도메인에서 테스트 시간 오류를 유사하게 비지도 방식으로 모방합니다. 또한 명명된 엔티티를 더 잘 처리하기 위해 데이터베이스에서 검색된 엔티티로 입력을 보강하는 검색 보강 교정을 도입합니다. 우리의 접근 방식은 간단하고 확장 가능하며 도메인 및 언어에 중립적입니다. 우리는 여러 데이터셋과 설정에서 실험을 진행하며, DARAG가 모든 기준선을 능가하여 ID에서 8\% ~ 30\% 상대적인 WER 개선을 달성하고, OOD 설정에서 10\% ~ 33\% 개선을 보여줍니다.
English
Generative Error Correction (GEC) has emerged as a powerful post-processing
method to enhance the performance of Automatic Speech Recognition (ASR)
systems. However, we show that GEC models struggle to generalize beyond the
specific types of errors encountered during training, limiting their ability to
correct new, unseen errors at test time, particularly in out-of-domain (OOD)
scenarios. This phenomenon amplifies with named entities (NEs), where, in
addition to insufficient contextual information or knowledge about the NEs,
novel NEs keep emerging. To address these issues, we propose DARAG (Data- and
Retrieval-Augmented Generative Error Correction), a novel approach designed to
improve GEC for ASR in in-domain (ID) and OOD scenarios. We augment the GEC
training dataset with synthetic data generated by prompting LLMs and
text-to-speech models, thereby simulating additional errors from which the
model can learn. For OOD scenarios, we simulate test-time errors from new
domains similarly and in an unsupervised fashion. Additionally, to better
handle named entities, we introduce retrieval-augmented correction by
augmenting the input with entities retrieved from a database. Our approach is
simple, scalable, and both domain- and language-agnostic. We experiment on
multiple datasets and settings, showing that DARAG outperforms all our
baselines, achieving 8\% -- 30\% relative WER improvements in ID and 10\% --
33\% improvements in OOD settings.Summary
AI-Generated Summary