ChatPaper.aiChatPaper

합성 감정 발화를 활용하여 화자 인증의 견고성 향상

Improving speaker verification robustness with synthetic emotional utterances

November 30, 2024
저자: Nikhil Kumar Koditala, Chelsea Jui-Ting Ju, Ruirui Li, Minho Jin, Aman Chadha, Andreas Stolcke
cs.AI

초록

화자 확인(SV) 시스템은 주어진 음성 샘플이 특정 화자로부터 유래되었는지를 확인하는 인증 서비스를 제공합니다. 이 기술은 다양한 개인화된 응용 프로그램을 위한 길을 열었습니다. SV 시스템이 직면한 주목할만한 과제는 다양한 감정 스펙트럼에 걸쳐 일관되게 작동하는 능력입니다. 대부분의 기존 모델은 중립 발화와 비교했을 때 감정 발화를 처리할 때 높은 오류율을 나타냅니다. 결과적으로, 이 현상은 종종 관심 있는 음성을 놓치게 만듭니다. 이 문제는 주로 레이블이 지정된 감정적 음성 데이터의 제한된 가용성에서 비롯되며, 다양한 감정 상태를 포괄하는 견고한 화자 표현의 개발을 방해합니다. 이러한 문제를 해결하기 위해, 우리는 CycleGAN 프레임워크를 데이터 증강 방법으로 활용하는 새로운 접근 방식을 제안합니다. 이 기술은 각 특정 화자를 위해 감정적 음성 세그먼트를 합성하면서 고유한 음성 신원을 보존합니다. 우리의 실험 결과는 합성 감정 데이터를 훈련 과정에 통합하는 효과를 강조합니다. 이 증강된 데이터셋을 사용하여 훈련된 모델은 감정 발화 시나리오에서 화자 확인 작업에서 기존 모델을 일관되게 능가하며, 동등 오류율을 최대 3.64%까지 줄입니다.
English
A speaker verification (SV) system offers an authentication service designed to confirm whether a given speech sample originates from a specific speaker. This technology has paved the way for various personalized applications that cater to individual preferences. A noteworthy challenge faced by SV systems is their ability to perform consistently across a range of emotional spectra. Most existing models exhibit high error rates when dealing with emotional utterances compared to neutral ones. Consequently, this phenomenon often leads to missing out on speech of interest. This issue primarily stems from the limited availability of labeled emotional speech data, impeding the development of robust speaker representations that encompass diverse emotional states. To address this concern, we propose a novel approach employing the CycleGAN framework to serve as a data augmentation method. This technique synthesizes emotional speech segments for each specific speaker while preserving the unique vocal identity. Our experimental findings underscore the effectiveness of incorporating synthetic emotional data into the training process. The models trained using this augmented dataset consistently outperform the baseline models on the task of verifying speakers in emotional speech scenarios, reducing equal error rate by as much as 3.64% relative.

Summary

AI-Generated Summary

PDF22December 3, 2024