LLMVoX: Авторегрессивная потоковая модель преобразования текста в речь для любых языковых моделей (LLM)

Аннотация

Последние достижения в системах речевого диалога, использующих LLM (языковые модели большого масштаба) для мультимодальных взаимодействий, по-прежнему ограничены необходимостью тонкой настройки, высокими вычислительными затратами и рассогласованием между текстом и речью. Существующие речевые LLM часто ухудшают качество диалога за счет модификации модели, что снижает её лингвистические возможности. В отличие от этого, мы предлагаем LLMVoX — легковесную 30-миллионнопараметровую авторегрессивную потоковую систему синтеза речи (TTS), независимую от LLM, которая генерирует высококачественную речь с низкой задержкой, полностью сохраняя возможности базовой LLM. Наш подход демонстрирует значительно более низкий уровень ошибок на слово (WER) по сравнению с речевыми LLM, при сопоставимой задержке и оценке UTMOS. Благодаря разделению синтеза речи и обработки LLM с помощью системы потоковой передачи токенов с использованием нескольких очередей, LLMVoX поддерживает плавные диалоги неограниченной длины. Её модульная конструкция также упрощает адаптацию к различным задачам с использованием разных базовых моделей. Кроме того, LLMVoX обобщается на новые языки только за счет адаптации набора данных, достигая низкого уровня ошибок на символ (CER) в задаче синтеза арабской речи. Мы также интегрировали LLMVoX с моделью, объединяющей зрение и язык (Vision-Language Model), создав универсальную модель с возможностями обработки речи, текста и изображений без необходимости дополнительного мультимодального обучения. Наш код и страница проекта доступны по адресу: https://mbzuai-oryx.github.io/LLMVoX.

English

Recent advancements in speech-to-speech dialogue systems leverage LLMs for multimodal interactions, yet they remain hindered by fine-tuning requirements, high computational overhead, and text-speech misalignment. Existing speech-enabled LLMs often degrade conversational quality by modifying the LLM, thereby compromising its linguistic capabilities. In contrast, we propose LLMVoX, a lightweight 30M-parameter, LLM-agnostic, autoregressive streaming TTS system that generates high-quality speech with low latency, while fully preserving the capabilities of the base LLM. Our approach achieves a significantly lower Word Error Rate compared to speech-enabled LLMs, while operating at comparable latency and UTMOS score. By decoupling speech synthesis from LLM processing via a multi-queue token streaming system, LLMVoX supports seamless, infinite-length dialogues. Its plug-and-play design also facilitates extension to various tasks with different backbones. Furthermore, LLMVoX generalizes to new languages with only dataset adaptation, attaining a low Character Error Rate on an Arabic speech task. Additionally, we have integrated LLMVoX with a Vision-Language Model to create an omni-model with speech, text, and vision capabilities, without requiring additional multimodal training. Our code base and project page is available at https://mbzuai-oryx.github.io/LLMVoX .

LLMVoX: Авторегрессивная потоковая модель преобразования текста в речь для любых языковых моделей (LLM)

LLMVoX: Autoregressive Streaming Text-to-Speech Model for Any LLM

Аннотация

Summary

Support