DM-Codec : Distillation de représentations multimodales pour la tokenisation de la parole
DM-Codec: Distilling Multimodal Representations for Speech Tokenization
October 19, 2024
Auteurs: Md Mubtasim Ahasan, Md Fahim, Tasnim Mohiuddin, A K M Mahbubur Rahman, Aman Chadha, Tariq Iqbal, M Ashraful Amin, Md Mofijul Islam, Amin Ahsan Ali
cs.AI
Résumé
Les récents progrès dans les modèles de langage parlé ont entraîné des améliorations significatives dans la tokenisation et la synthèse de la parole. Cependant, cartographier efficacement les attributs complexes et multidimensionnels de la parole en tokens discrets reste un défi. Ce processus exige des informations acoustiques, sémantiques et contextuelles pour des représentations précises de la parole. Les représentations de la parole existantes se divisent généralement en deux catégories : des tokens acoustiques provenant des codecs audio et des tokens sémantiques issus des modèles d'apprentissage auto-supervisé de la parole. Bien que des efforts récents aient unifié les tokens acoustiques et sémantiques pour améliorer les performances, ils négligent le rôle crucial de la représentation contextuelle dans la modélisation complète de la parole. Nos investigations empiriques révèlent que l'absence de représentations contextuelles entraîne une augmentation du taux d'erreur de mots (WER) et des scores de perte d'informations de mots (WIL) dans les transcriptions de la parole. Pour remédier à ces limitations, nous proposons deux nouvelles approches de distillation : (1) une méthode de distillation guidée par un modèle de langage (LM) qui intègre des informations contextuelles, et (2) une technique de distillation guidée par un LM combiné à un modèle de parole auto-supervisé (SM) qui distille efficacement des représentations multimodales (acoustiques, sémantiques et contextuelles) en un tokeniseur de parole complet, appelé DM-Codec. L'architecture DM-Codec adopte un cadre encodeur-décodeur rationalisé avec un quantificateur vectoriel résiduel (RVQ) et intègre le LM et le SM pendant le processus d'entraînement. Les expériences montrent que DM-Codec surpasse significativement les modèles de tokenisation de parole de pointe, réduisant le WER jusqu'à 13,46 %, le WIL de 9,82 %, et améliorant la qualité de la parole de 5,84 % et l'intelligibilité de 1,85 % sur l'ensemble de données de référence LibriSpeech. Le code, les échantillons et les points de contrôle du modèle sont disponibles sur https://github.com/mubtasimahasan/DM-Codec.
English
Recent advancements in speech-language models have yielded significant
improvements in speech tokenization and synthesis. However, effectively mapping
the complex, multidimensional attributes of speech into discrete tokens remains
challenging. This process demands acoustic, semantic, and contextual
information for precise speech representations. Existing speech representations
generally fall into two categories: acoustic tokens from audio codecs and
semantic tokens from speech self-supervised learning models. Although recent
efforts have unified acoustic and semantic tokens for improved performance,
they overlook the crucial role of contextual representation in comprehensive
speech modeling. Our empirical investigations reveal that the absence of
contextual representations results in elevated Word Error Rate (WER) and Word
Information Lost (WIL) scores in speech transcriptions. To address these
limitations, we propose two novel distillation approaches: (1) a language model
(LM)-guided distillation method that incorporates contextual information, and
(2) a combined LM and self-supervised speech model (SM)-guided distillation
technique that effectively distills multimodal representations (acoustic,
semantic, and contextual) into a comprehensive speech tokenizer, termed
DM-Codec. The DM-Codec architecture adopts a streamlined encoder-decoder
framework with a Residual Vector Quantizer (RVQ) and incorporates the LM and SM
during the training process. Experiments show DM-Codec significantly
outperforms state-of-the-art speech tokenization models, reducing WER by up to
13.46%, WIL by 9.82%, and improving speech quality by 5.84% and intelligibility
by 1.85% on the LibriSpeech benchmark dataset. The code, samples, and model
checkpoints are available at https://github.com/mubtasimahasan/DM-Codec.Summary
AI-Generated Summary