Rapporto Tecnico di Qwen2.5-Omni
Qwen2.5-Omni Technical Report
March 26, 2025
Autori: Jin Xu, Zhifang Guo, Jinzheng He, Hangrui Hu, Ting He, Shuai Bai, Keqin Chen, Jialin Wang, Yang Fan, Kai Dang, Bin Zhang, Xiong Wang, Yunfei Chu, Junyang Lin
cs.AI
Abstract
In questo rapporto presentiamo Qwen2.5-Omni, un modello multimodale end-to-end progettato per percepire diverse modalità, tra cui testo, immagini, audio e video, generando simultaneamente risposte in testo e linguaggio naturale in modalità streaming. Per abilitare lo streaming degli input di informazioni multimodali, sia gli encoder audio che quelli visivi utilizzano un approccio di elaborazione a blocchi. Per sincronizzare i timestamp degli input video con l'audio, organizziamo l'audio e il video in modo sequenziale e intercalato, proponendo un nuovo approccio di embedding posizionale denominato TMRoPE (Time-aligned Multimodal RoPE). Per generare contemporaneamente testo e parlato evitando interferenze tra le due modalità, proponiamo l'architettura Thinker-Talker. In questo framework, Thinker funziona come un modello linguistico di grandi dimensioni incaricato della generazione del testo, mentre Talker è un modello autoregressivo a doppio binario che utilizza direttamente le rappresentazioni nascoste di Thinker per produrre token audio come output. Sia il modello Thinker che Talker sono progettati per essere addestrati e inferiti in modalità end-to-end. Per decodificare i token audio in modalità streaming, introduciamo un DiT a finestra scorrevole che limita il campo recettivo, con l'obiettivo di ridurre il ritardo iniziale del pacchetto. Qwen2.5-Omni è paragonabile a Qwen2.5-VL di dimensioni simili e supera Qwen2-Audio. Inoltre, Qwen2.5-Omni raggiunge prestazioni all'avanguardia su benchmark multimodali come Omni-Bench. È degno di nota che le prestazioni di Qwen2.5-Omni nel seguire istruzioni vocali end-to-end siano paragonabili alle sue capacità con input di testo, come dimostrato da benchmark come MMLU e GSM8K. Per quanto riguarda la generazione del parlato, il Talker in streaming di Qwen2.5-Omni supera la maggior parte delle alternative esistenti, sia in streaming che non, in termini di robustezza e naturalezza.
English
In this report, we present Qwen2.5-Omni, an end-to-end multimodal model
designed to perceive diverse modalities, including text, images, audio, and
video, while simultaneously generating text and natural speech responses in a
streaming manner. To enable the streaming of multimodal information inputs,
both audio and visual encoders utilize a block-wise processing approach. To
synchronize the timestamps of video inputs with audio, we organize the audio
and video sequentially in an interleaved manner and propose a novel position
embedding approach, named TMRoPE(Time-aligned Multimodal RoPE). To concurrently
generate text and speech while avoiding interference between the two
modalities, we propose Thinker-Talker architecture. In this framework,
Thinker functions as a large language model tasked with text generation, while
Talker is a dual-track autoregressive model that directly utilizes the hidden
representations from the Thinker to produce audio tokens as output. Both the
Thinker and Talker models are designed to be trained and inferred in an
end-to-end manner. For decoding audio tokens in a streaming manner, we
introduce a sliding-window DiT that restricts the receptive field, aiming to
reduce the initial package delay. Qwen2.5-Omni is comparable with the similarly
sized Qwen2.5-VL and outperforms Qwen2-Audio. Furthermore, Qwen2.5-Omni
achieves state-of-the-art performance on multimodal benchmarks like Omni-Bench.
Notably, Qwen2.5-Omni's performance in end-to-end speech instruction following
is comparable to its capabilities with text inputs, as evidenced by benchmarks
such as MMLU and GSM8K. As for speech generation, Qwen2.5-Omni's streaming
Talker outperforms most existing streaming and non-streaming alternatives in
robustness and naturalness.Summary
AI-Generated Summary