Migliorare la robustezza della verifica del locutore con enunciati emotivi sintetici

Abstract

Un sistema di verifica del locutore (SV) offre un servizio di autenticazione progettato per confermare se un determinato campione vocale proviene da un locutore specifico. Questa tecnologia ha aperto la strada a varie applicazioni personalizzate che si adattano alle preferenze individuali. Una sfida significativa affrontata dai sistemi SV è la loro capacità di mantenere prestazioni costanti su una gamma di spettri emotivi. La maggior parte dei modelli esistenti mostra tassi di errore elevati nel trattare enunciati emotivi rispetto a quelli neutrali. Di conseguenza, questo fenomeno porta spesso a perdere discorsi di interesse. Questo problema deriva principalmente dalla limitata disponibilità di dati vocali emotivi etichettati, che ostacola lo sviluppo di rappresentazioni robuste dei locutori che comprendono diversi stati emotivi. Per affrontare questa preoccupazione, proponiamo un approccio innovativo che utilizza il framework CycleGAN come metodo di aumento dei dati. Questa tecnica sintetizza segmenti vocali emotivi per ciascun locutore specifico preservando l'identità vocale unica. I nostri risultati sperimentali sottolineano l'efficacia dell'incorporazione di dati emotivi sintetici nel processo di addestramento. I modelli addestrati utilizzando questo dataset aumentato superano costantemente i modelli di base nel compito di verificare i locutori in scenari di discorsi emotivi, riducendo il tasso di errore equivalente fino al 3,64% in termini relativi.

English

A speaker verification (SV) system offers an authentication service designed to confirm whether a given speech sample originates from a specific speaker. This technology has paved the way for various personalized applications that cater to individual preferences. A noteworthy challenge faced by SV systems is their ability to perform consistently across a range of emotional spectra. Most existing models exhibit high error rates when dealing with emotional utterances compared to neutral ones. Consequently, this phenomenon often leads to missing out on speech of interest. This issue primarily stems from the limited availability of labeled emotional speech data, impeding the development of robust speaker representations that encompass diverse emotional states. To address this concern, we propose a novel approach employing the CycleGAN framework to serve as a data augmentation method. This technique synthesizes emotional speech segments for each specific speaker while preserving the unique vocal identity. Our experimental findings underscore the effectiveness of incorporating synthetic emotional data into the training process. The models trained using this augmented dataset consistently outperform the baseline models on the task of verifying speakers in emotional speech scenarios, reducing equal error rate by as much as 3.64% relative.

Migliorare la robustezza della verifica del locutore con enunciati emotivi sintetici

Improving speaker verification robustness with synthetic emotional utterances

Abstract

Summary

Support