DM-Codec : Distillation de représentations multimodales pour la tokenisation de la parole

Résumé

Les récents progrès dans les modèles de langage parlé ont entraîné des améliorations significatives dans la tokenisation et la synthèse de la parole. Cependant, cartographier efficacement les attributs complexes et multidimensionnels de la parole en tokens discrets reste un défi. Ce processus exige des informations acoustiques, sémantiques et contextuelles pour des représentations précises de la parole. Les représentations de la parole existantes se divisent généralement en deux catégories : des tokens acoustiques provenant des codecs audio et des tokens sémantiques issus des modèles d'apprentissage auto-supervisé de la parole. Bien que des efforts récents aient unifié les tokens acoustiques et sémantiques pour améliorer les performances, ils négligent le rôle crucial de la représentation contextuelle dans la modélisation complète de la parole. Nos investigations empiriques révèlent que l'absence de représentations contextuelles entraîne une augmentation du taux d'erreur de mots (WER) et des scores de perte d'informations de mots (WIL) dans les transcriptions de la parole. Pour remédier à ces limitations, nous proposons deux nouvelles approches de distillation : (1) une méthode de distillation guidée par un modèle de langage (LM) qui intègre des informations contextuelles, et (2) une technique de distillation guidée par un LM combiné à un modèle de parole auto-supervisé (SM) qui distille efficacement des représentations multimodales (acoustiques, sémantiques et contextuelles) en un tokeniseur de parole complet, appelé DM-Codec. L'architecture DM-Codec adopte un cadre encodeur-décodeur rationalisé avec un quantificateur vectoriel résiduel (RVQ) et intègre le LM et le SM pendant le processus d'entraînement. Les expériences montrent que DM-Codec surpasse significativement les modèles de tokenisation de parole de pointe, réduisant le WER jusqu'à 13,46 %, le WIL de 9,82 %, et améliorant la qualité de la parole de 5,84 % et l'intelligibilité de 1,85 % sur l'ensemble de données de référence LibriSpeech. Le code, les échantillons et les points de contrôle du modèle sont disponibles sur https://github.com/mubtasimahasan/DM-Codec.

English

Recent advancements in speech-language models have yielded significant improvements in speech tokenization and synthesis. However, effectively mapping the complex, multidimensional attributes of speech into discrete tokens remains challenging. This process demands acoustic, semantic, and contextual information for precise speech representations. Existing speech representations generally fall into two categories: acoustic tokens from audio codecs and semantic tokens from speech self-supervised learning models. Although recent efforts have unified acoustic and semantic tokens for improved performance, they overlook the crucial role of contextual representation in comprehensive speech modeling. Our empirical investigations reveal that the absence of contextual representations results in elevated Word Error Rate (WER) and Word Information Lost (WIL) scores in speech transcriptions. To address these limitations, we propose two novel distillation approaches: (1) a language model (LM)-guided distillation method that incorporates contextual information, and (2) a combined LM and self-supervised speech model (SM)-guided distillation technique that effectively distills multimodal representations (acoustic, semantic, and contextual) into a comprehensive speech tokenizer, termed DM-Codec. The DM-Codec architecture adopts a streamlined encoder-decoder framework with a Residual Vector Quantizer (RVQ) and incorporates the LM and SM during the training process. Experiments show DM-Codec significantly outperforms state-of-the-art speech tokenization models, reducing WER by up to 13.46%, WIL by 9.82%, and improving speech quality by 5.84% and intelligibility by 1.85% on the LibriSpeech benchmark dataset. The code, samples, and model checkpoints are available at https://github.com/mubtasimahasan/DM-Codec.

DM-Codec : Distillation de représentations multimodales pour la tokenisation de la parole

DM-Codec: Distilling Multimodal Representations for Speech Tokenization

Résumé

Support