Lyra: un framework efficiente e centrato sull'interazione vocale per l'omni-cognizione

Abstract

Con l'evoluzione dei Modelli Linguistici Multimodali di Grandi Dimensioni (MLLMs), è essenziale espandersi oltre le capacità in un singolo dominio per soddisfare le esigenze di un'intelligenza artificiale più versatile ed efficiente. Tuttavia, i precedenti modelli omni-modalità hanno esplorato in modo insufficiente il linguaggio parlato, trascurando la sua integrazione con la multimodalità. Presentiamo Lyra, un MLLM efficiente che potenzia le capacità multimodali, inclusa la comprensione avanzata del linguaggio parlato, la comprensione del suono, l'efficienza della cross-modalità e l'interazione vocale senza soluzione di continuità. Per raggiungere l'efficienza e le capacità incentrate sul linguaggio parlato, Lyra utilizza tre strategie: (1) sfruttando modelli di grandi dimensioni open-source esistenti e un nuovo LoRA multimodalità proposto per ridurre i costi di addestramento e i requisiti di dati; (2) utilizzando un regolarizzatore e un estrattore latenti multimodalità per rafforzare la relazione tra il linguaggio parlato e le altre modalità, migliorando così le prestazioni del modello; e (3) costruendo un dataset di alta qualità e ampio che include 1,5 milioni di campioni di dati multimodali (linguaggio, visione, audio) e 12.000 campioni di linguaggio parlato lungo, consentendo a Lyra di gestire input di linguaggio parlato lungo complessi e raggiungere una cognizione omni più robusta. Rispetto ad altri metodi omni, Lyra raggiunge prestazioni all'avanguardia su vari benchmark di visione-linguaggio, visione-linguaggio parlato e linguaggio parlato, utilizzando anche meno risorse computazionali e minori dati di addestramento.

English

As Multi-modal Large Language Models (MLLMs) evolve, expanding beyond single-domain capabilities is essential to meet the demands for more versatile and efficient AI. However, previous omni-models have insufficiently explored speech, neglecting its integration with multi-modality. We introduce Lyra, an efficient MLLM that enhances multimodal abilities, including advanced long-speech comprehension, sound understanding, cross-modality efficiency, and seamless speech interaction. To achieve efficiency and speech-centric capabilities, Lyra employs three strategies: (1) leveraging existing open-source large models and a proposed multi-modality LoRA to reduce training costs and data requirements; (2) using a latent multi-modality regularizer and extractor to strengthen the relationship between speech and other modalities, thereby enhancing model performance; and (3) constructing a high-quality, extensive dataset that includes 1.5M multi-modal (language, vision, audio) data samples and 12K long speech samples, enabling Lyra to handle complex long speech inputs and achieve more robust omni-cognition. Compared to other omni-methods, Lyra achieves state-of-the-art performance on various vision-language, vision-speech, and speech-language benchmarks, while also using fewer computational resources and less training data.

Lyra: un framework efficiente e centrato sull'interazione vocale per l'omni-cognizione

Lyra: An Efficient and Speech-Centric Framework for Omni-Cognition

Abstract

Support