LLMVoX: Авторегрессивная потоковая модель преобразования текста в речь для любых языковых моделей (LLM)
LLMVoX: Autoregressive Streaming Text-to-Speech Model for Any LLM
March 6, 2025
Авторы: Sambal Shikhar, Mohammed Irfan Kurpath, Sahal Shaji Mullappilly, Jean Lahoud, Fahad Khan, Rao Muhammad Anwer, Salman Khan, Hisham Cholakkal
cs.AI
Аннотация
Последние достижения в системах речевого диалога, использующих LLM (языковые модели большого масштаба) для мультимодальных взаимодействий, по-прежнему ограничены необходимостью тонкой настройки, высокими вычислительными затратами и рассогласованием между текстом и речью. Существующие речевые LLM часто ухудшают качество диалога за счет модификации модели, что снижает её лингвистические возможности. В отличие от этого, мы предлагаем LLMVoX — легковесную 30-миллионнопараметровую авторегрессивную потоковую систему синтеза речи (TTS), независимую от LLM, которая генерирует высококачественную речь с низкой задержкой, полностью сохраняя возможности базовой LLM. Наш подход демонстрирует значительно более низкий уровень ошибок на слово (WER) по сравнению с речевыми LLM, при сопоставимой задержке и оценке UTMOS. Благодаря разделению синтеза речи и обработки LLM с помощью системы потоковой передачи токенов с использованием нескольких очередей, LLMVoX поддерживает плавные диалоги неограниченной длины. Её модульная конструкция также упрощает адаптацию к различным задачам с использованием разных базовых моделей. Кроме того, LLMVoX обобщается на новые языки только за счет адаптации набора данных, достигая низкого уровня ошибок на символ (CER) в задаче синтеза арабской речи. Мы также интегрировали LLMVoX с моделью, объединяющей зрение и язык (Vision-Language Model), создав универсальную модель с возможностями обработки речи, текста и изображений без необходимости дополнительного мультимодального обучения. Наш код и страница проекта доступны по адресу: https://mbzuai-oryx.github.io/LLMVoX.
English
Recent advancements in speech-to-speech dialogue systems leverage LLMs for
multimodal interactions, yet they remain hindered by fine-tuning requirements,
high computational overhead, and text-speech misalignment. Existing
speech-enabled LLMs often degrade conversational quality by modifying the LLM,
thereby compromising its linguistic capabilities. In contrast, we propose
LLMVoX, a lightweight 30M-parameter, LLM-agnostic, autoregressive streaming TTS
system that generates high-quality speech with low latency, while fully
preserving the capabilities of the base LLM. Our approach achieves a
significantly lower Word Error Rate compared to speech-enabled LLMs, while
operating at comparable latency and UTMOS score. By decoupling speech synthesis
from LLM processing via a multi-queue token streaming system, LLMVoX supports
seamless, infinite-length dialogues. Its plug-and-play design also facilitates
extension to various tasks with different backbones. Furthermore, LLMVoX
generalizes to new languages with only dataset adaptation, attaining a low
Character Error Rate on an Arabic speech task. Additionally, we have integrated
LLMVoX with a Vision-Language Model to create an omni-model with speech, text,
and vision capabilities, without requiring additional multimodal training. Our
code base and project page is available at https://mbzuai-oryx.github.io/LLMVoX .Summary
AI-Generated Summary