Lyra: un framework efficiente e centrato sull'interazione vocale per l'omni-cognizione
Lyra: An Efficient and Speech-Centric Framework for Omni-Cognition
December 12, 2024
Autori: Zhisheng Zhong, Chengyao Wang, Yuqi Liu, Senqiao Yang, Longxiang Tang, Yuechen Zhang, Jingyao Li, Tianyuan Qu, Yanwei Li, Yukang Chen, Shaozuo Yu, Sitong Wu, Eric Lo, Shu Liu, Jiaya Jia
cs.AI
Abstract
Con l'evoluzione dei Modelli Linguistici Multimodali di Grandi Dimensioni (MLLMs), è essenziale espandersi oltre le capacità in un singolo dominio per soddisfare le esigenze di un'intelligenza artificiale più versatile ed efficiente. Tuttavia, i precedenti modelli omni-modalità hanno esplorato in modo insufficiente il linguaggio parlato, trascurando la sua integrazione con la multimodalità. Presentiamo Lyra, un MLLM efficiente che potenzia le capacità multimodali, inclusa la comprensione avanzata del linguaggio parlato, la comprensione del suono, l'efficienza della cross-modalità e l'interazione vocale senza soluzione di continuità. Per raggiungere l'efficienza e le capacità incentrate sul linguaggio parlato, Lyra utilizza tre strategie: (1) sfruttando modelli di grandi dimensioni open-source esistenti e un nuovo LoRA multimodalità proposto per ridurre i costi di addestramento e i requisiti di dati; (2) utilizzando un regolarizzatore e un estrattore latenti multimodalità per rafforzare la relazione tra il linguaggio parlato e le altre modalità, migliorando così le prestazioni del modello; e (3) costruendo un dataset di alta qualità e ampio che include 1,5 milioni di campioni di dati multimodali (linguaggio, visione, audio) e 12.000 campioni di linguaggio parlato lungo, consentendo a Lyra di gestire input di linguaggio parlato lungo complessi e raggiungere una cognizione omni più robusta. Rispetto ad altri metodi omni, Lyra raggiunge prestazioni all'avanguardia su vari benchmark di visione-linguaggio, visione-linguaggio parlato e linguaggio parlato, utilizzando anche meno risorse computazionali e minori dati di addestramento.
English
As Multi-modal Large Language Models (MLLMs) evolve, expanding beyond
single-domain capabilities is essential to meet the demands for more versatile
and efficient AI. However, previous omni-models have insufficiently explored
speech, neglecting its integration with multi-modality. We introduce Lyra, an
efficient MLLM that enhances multimodal abilities, including advanced
long-speech comprehension, sound understanding, cross-modality efficiency, and
seamless speech interaction. To achieve efficiency and speech-centric
capabilities, Lyra employs three strategies: (1) leveraging existing
open-source large models and a proposed multi-modality LoRA to reduce training
costs and data requirements; (2) using a latent multi-modality regularizer and
extractor to strengthen the relationship between speech and other modalities,
thereby enhancing model performance; and (3) constructing a high-quality,
extensive dataset that includes 1.5M multi-modal (language, vision, audio) data
samples and 12K long speech samples, enabling Lyra to handle complex long
speech inputs and achieve more robust omni-cognition. Compared to other
omni-methods, Lyra achieves state-of-the-art performance on various
vision-language, vision-speech, and speech-language benchmarks, while also
using fewer computational resources and less training data.Summary
AI-Generated Summary