Ichigo: Gemischt-modaler Frühfusion Echtzeit-Sprachassistent

Ichigo: Mixed-Modal Early-Fusion Realtime Voice Assistant

October 20, 2024
Autoren: Alan Dao, Dinh Bach Vu, Huy Hoang Ha
cs.AI

Zusammenfassung

Große Sprachmodelle (LLMs) haben die Verarbeitung natürlicher Sprache revolutioniert, aber ihre Anwendung auf sprachbasierte Aufgaben bleibt aufgrund der Komplexität der Integration von Audio- und Textmodalitäten herausfordernd. Dieses Papier stellt Ichigo vor, ein Mixed-Modal-Modell, das nahtlos ineinandergreifende Sequenzen von Sprache und Text verarbeitet. Unter Verwendung eines tokenisierten Early-Fusion-Ansatzes quantisiert Ichigo Sprache in diskrete Tokens und verwendet eine einheitliche Transformer-basierte Architektur für beide Modalitäten. Diese Methode ermöglicht gemeinsames Denken und Generieren über Modalitäten hinweg, ohne separate Adapter zu benötigen. Wir präsentieren eine umfassende Schulungsmethodik, einschließlich Vortrainieren auf mehrsprachigen Spracherkennungsdatensätzen und Feinabstimmung auf einem kuratierten Anweisungsdatensatz. Ichigo zeigt eine Leistung auf dem neuesten Stand der Technik bei sprachbasierten Frage-Antwort-Benchmarks, übertrifft bestehende Open-Source-Sprachmodelle und erzielt vergleichbare Ergebnisse wie kaskadierte Systeme. Beachtenswert ist, dass Ichigo eine Latenz von nur 111 ms bis zur Generierung des ersten Tokens aufweist, was deutlich niedriger ist als bei aktuellen Modellen. Unser Ansatz fördert nicht nur das Gebiet der multimodalen KI, sondern bietet auch einen Rahmen für kleinere Forschungsteams, um effektiv zu Open-Source-Sprach- und Sprachmodelle beizutragen.
English
Large Language Models (LLMs) have revolutionized natural language processing, but their application to speech-based tasks remains challenging due to the complexities of integrating audio and text modalities. This paper introduces Ichigo, a mixed-modal model that seamlessly processes interleaved sequences of speech and text. Utilizing a tokenized early-fusion approach, Ichigo quantizes speech into discrete tokens and employs a uniform transformer-based architecture for both speech and text modalities. This method enables joint reasoning and generation across modalities without the need for separate adapters. We present a comprehensive training methodology, including pre-training on multilingual speech recognition datasets and fine-tuning on a curated instruction dataset. Ichigo demonstrates state-of-the-art performance on speech question-answering benchmarks, outperforming existing open-source speech language models and achieving comparable results to cascaded systems. Notably, Ichigo exhibits a latency of just 111 ms to first token generation, significantly lower than current models. Our approach not only advances the field of multimodal AI but also provides a framework for smaller research teams to contribute effectively to open-source speech-language models.

Summary

AI-Generated Summary

PDF104November 16, 2024