Ichigo : Assistant vocal en temps réel à fusion précoce multimodale mixte

Résumé

Les grands modèles de langage (LLMs) ont révolutionné le traitement automatique du langage naturel, mais leur application aux tâches basées sur la parole reste complexe en raison des défis liés à l'intégration des modalités audio et texte. Ce document présente Ichigo, un modèle mixte qui traite de manière transparente des séquences entrelacées de parole et de texte. En utilisant une approche de fusion précoce tokenisée, Ichigo quantifie la parole en jetons discrets et utilise une architecture uniforme basée sur des transformateurs pour les modalités de parole et de texte. Cette méthode permet un raisonnement et une génération conjoints à travers les modalités sans nécessiter d'adaptateurs séparés. Nous présentons une méthodologie de formation complète, comprenant un pré-entraînement sur des ensembles de données de reconnaissance de la parole multilingues et un affinage sur un ensemble de données d'instructions sélectionné. Ichigo démontre des performances de pointe sur des référentiels de questions-réponses de parole, surpassant les modèles de langage de parole open-source existants et obtenant des résultats comparables à ceux des systèmes en cascade. Notamment, Ichigo présente une latence de seulement 111 ms pour la génération du premier jeton, nettement inférieure à celle des modèles actuels. Notre approche fait progresser le domaine de l'IA multimodale et fournit un cadre permettant aux petites équipes de recherche de contribuer efficacement aux modèles de langage de parole open-source.

English

Large Language Models (LLMs) have revolutionized natural language processing, but their application to speech-based tasks remains challenging due to the complexities of integrating audio and text modalities. This paper introduces Ichigo, a mixed-modal model that seamlessly processes interleaved sequences of speech and text. Utilizing a tokenized early-fusion approach, Ichigo quantizes speech into discrete tokens and employs a uniform transformer-based architecture for both speech and text modalities. This method enables joint reasoning and generation across modalities without the need for separate adapters. We present a comprehensive training methodology, including pre-training on multilingual speech recognition datasets and fine-tuning on a curated instruction dataset. Ichigo demonstrates state-of-the-art performance on speech question-answering benchmarks, outperforming existing open-source speech language models and achieving comparable results to cascaded systems. Notably, Ichigo exhibits a latency of just 111 ms to first token generation, significantly lower than current models. Our approach not only advances the field of multimodal AI but also provides a framework for smaller research teams to contribute effectively to open-source speech-language models.

Ichigo : Assistant vocal en temps réel à fusion précoce multimodale mixte

Ichigo: Mixed-Modal Early-Fusion Realtime Voice Assistant

Résumé

Summary

Support