Ichigo: Gemischt-modaler Frühfusion Echtzeit-Sprachassistent
Ichigo: Mixed-Modal Early-Fusion Realtime Voice Assistant
October 20, 2024
Autoren: Alan Dao, Dinh Bach Vu, Huy Hoang Ha
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) haben die Verarbeitung natürlicher Sprache revolutioniert, aber ihre Anwendung auf sprachbasierte Aufgaben bleibt aufgrund der Komplexität der Integration von Audio- und Textmodalitäten herausfordernd. Dieses Papier stellt Ichigo vor, ein Mixed-Modal-Modell, das nahtlos ineinandergreifende Sequenzen von Sprache und Text verarbeitet. Unter Verwendung eines tokenisierten Early-Fusion-Ansatzes quantisiert Ichigo Sprache in diskrete Tokens und verwendet eine einheitliche Transformer-basierte Architektur für beide Modalitäten. Diese Methode ermöglicht gemeinsames Denken und Generieren über Modalitäten hinweg, ohne separate Adapter zu benötigen. Wir präsentieren eine umfassende Schulungsmethodik, einschließlich Vortrainieren auf mehrsprachigen Spracherkennungsdatensätzen und Feinabstimmung auf einem kuratierten Anweisungsdatensatz. Ichigo zeigt eine Leistung auf dem neuesten Stand der Technik bei sprachbasierten Frage-Antwort-Benchmarks, übertrifft bestehende Open-Source-Sprachmodelle und erzielt vergleichbare Ergebnisse wie kaskadierte Systeme. Beachtenswert ist, dass Ichigo eine Latenz von nur 111 ms bis zur Generierung des ersten Tokens aufweist, was deutlich niedriger ist als bei aktuellen Modellen. Unser Ansatz fördert nicht nur das Gebiet der multimodalen KI, sondern bietet auch einen Rahmen für kleinere Forschungsteams, um effektiv zu Open-Source-Sprach- und Sprachmodelle beizutragen.
English
Large Language Models (LLMs) have revolutionized natural language processing,
but their application to speech-based tasks remains challenging due to the
complexities of integrating audio and text modalities. This paper introduces
Ichigo, a mixed-modal model that seamlessly processes interleaved sequences of
speech and text. Utilizing a tokenized early-fusion approach, Ichigo quantizes
speech into discrete tokens and employs a uniform transformer-based
architecture for both speech and text modalities. This method enables joint
reasoning and generation across modalities without the need for separate
adapters. We present a comprehensive training methodology, including
pre-training on multilingual speech recognition datasets and fine-tuning on a
curated instruction dataset. Ichigo demonstrates state-of-the-art performance
on speech question-answering benchmarks, outperforming existing open-source
speech language models and achieving comparable results to cascaded systems.
Notably, Ichigo exhibits a latency of just 111 ms to first token generation,
significantly lower than current models. Our approach not only advances the
field of multimodal AI but also provides a framework for smaller research teams
to contribute effectively to open-source speech-language models.Summary
AI-Generated Summary