테이킨: 우수 품질의 제로샷 음성 생성 모델 집단
Takin: A Cohort of Superior Quality Zero-shot Speech Generation Models
September 18, 2024
저자: EverestAI, Sijin Chen, Yuan Feng, Laipeng He, Tianwei He, Wendi He, Yanni Hu, Bin Lin, Yiting Lin, Pengfei Tan, Chengwei Tian, Chen Wang, Zhicheng Wang, Ruoye Xie, Jingjing Yin, Jianhao Ye, Jixun Yao, Quanlei Yan, Yuguang Yang
cs.AI
초록
빅데이터와 대형 언어 모델 시대의 도래로, 제로샷 개인화된 신속한 맞춤화가 중요한 트렌드로 떠오르고 있습니다. 본 보고서에서는 오디오북 제작을 위해 특별히 설계된 Takin AudioLLM이라는 일련의 기술과 모델을 소개합니다. 이에는 주로 Takin TTS, Takin VC, Takin Morphing이 포함되어 있습니다. 이러한 모델들은 제로샷 음성 생성이 가능하며, 실제 인간의 음성과 거의 구분할 수 없는 고품질 음성을 생성하여 개인이 필요에 맞게 음성 콘텐츠를 맞춤화할 수 있도록 지원합니다. 구체적으로, 먼저 향상된 신경 음성 코덱과 멀티태스크 훈련 프레임워크를 기반으로 하는 Takin TTS를 소개합니다. 이 모델은 제로샷 방식으로 고품질 자연스러운 음성을 생성할 수 있습니다. Takin VC의 경우, 효과적인 콘텐츠 및 음색 합동 모델링 접근을 제안하여 화자 유사성을 향상시키며, 자연스러움과 표현력을 더욱 향상시키기 위해 조건부 플로우 매칭 기반 디코더를 지지합니다. 마지막으로, Takin Morphing 시스템을 제안합니다. 이 시스템은 고도로 분리된 음색 및 억양 모델링 접근을 통해 개인이 원하는 음색과 억양으로 음성 생성을 정확하고 조절 가능하게 합니다. 광범위한 실험을 통해 우리의 Takin AudioLLM 시리즈 모델의 효과성과 견고성을 검증하였습니다. 자세한 데모는 https://takinaudiollm.github.io를 참조해주시기 바랍니다.
English
With the advent of the big data and large language model era, zero-shot
personalized rapid customization has emerged as a significant trend. In this
report, we introduce Takin AudioLLM, a series of techniques and models, mainly
including Takin TTS, Takin VC, and Takin Morphing, specifically designed for
audiobook production. These models are capable of zero-shot speech production,
generating high-quality speech that is nearly indistinguishable from real human
speech and facilitating individuals to customize the speech content according
to their own needs. Specifically, we first introduce Takin TTS, a neural codec
language model that builds upon an enhanced neural speech codec and a
multi-task training framework, capable of generating high-fidelity natural
speech in a zero-shot way. For Takin VC, we advocate an effective content and
timbre joint modeling approach to improve the speaker similarity, while
advocating for a conditional flow matching based decoder to further enhance its
naturalness and expressiveness. Last, we propose the Takin Morphing system with
highly decoupled and advanced timbre and prosody modeling approaches, which
enables individuals to customize speech production with their preferred timbre
and prosody in a precise and controllable manner. Extensive experiments
validate the effectiveness and robustness of our Takin AudioLLM series models.
For detailed demos, please refer to https://takinaudiollm.github.io.Summary
AI-Generated Summary