ChatPaper.aiChatPaper

EmoKnob: 섬세한 감정 제어를 통한 음성 복제 향상

EmoKnob: Enhance Voice Cloning with Fine-Grained Emotion Control

October 1, 2024
저자: Haozhe Chen, Run Chen, Julia Hirschberg
cs.AI

초록

최근 텍스트 음성 합성(TTS) 기술의 발전으로 자연스럽고 표현력 있는 음성이 생성되었지만, 사용자가 감정을 선택하고 강도를 조절할 수 있는 옵션이 부족합니다. 우리는 EmoKnob을 제안합니다. EmoKnob은 임의의 감정을 나타내는 소수의 샘플로 음성 합성에서 섬세한 감정 제어를 가능하게 하는 프레임워크입니다. 우리의 프레임워크는 최근 음성 클로닝 모델의 토대로 가능해진 표현력 있는 화자 표현 공간을 활용합니다. 우리의 감정 제어 프레임워크의 소수샷 능력을 기반으로, 우리는 텍스트로 설명된 감정에 감정 제어를 적용하는 두 가지 방법을 제안하며, 다양한 미묘한 감정을 제어하는 직관적 인터페이스를 가능하게 합니다. 보다 체계적인 감정 음성 합성 분야를 촉진하기 위해, 감정 제어 프레임워크의 충실도와 인식 가능성을 철저히 평가하기 위한 일련의 평가 지표를 소개합니다. 객관적 및 주관적 평가를 통해, 우리의 감정 제어 프레임워크가 감정을 음성에 효과적으로 내재시키고 상업용 TTS 서비스의 감정 표현력을 능가함을 보여줍니다.
English
While recent advances in Text-to-Speech (TTS) technology produce natural and expressive speech, they lack the option for users to select emotion and control intensity. We propose EmoKnob, a framework that allows fine-grained emotion control in speech synthesis with few-shot demonstrative samples of arbitrary emotion. Our framework leverages the expressive speaker representation space made possible by recent advances in foundation voice cloning models. Based on the few-shot capability of our emotion control framework, we propose two methods to apply emotion control on emotions described by open-ended text, enabling an intuitive interface for controlling a diverse array of nuanced emotions. To facilitate a more systematic emotional speech synthesis field, we introduce a set of evaluation metrics designed to rigorously assess the faithfulness and recognizability of emotion control frameworks. Through objective and subjective evaluations, we show that our emotion control framework effectively embeds emotions into speech and surpasses emotion expressiveness of commercial TTS services.

Summary

AI-Generated Summary

PDF72November 16, 2024