OmniMamba: Effizientes und einheitliches multimodales Verständnis und Generierung mittels State-Space-Modellen
OmniMamba: Efficient and Unified Multimodal Understanding and Generation via State Space Models
March 11, 2025
Autoren: Jialv Zou, Bencheng Liao, Qian Zhang, Wenyu Liu, Xinggang Wang
cs.AI
Zusammenfassung
Jüngste Fortschritte in der einheitlichen multimodalen Verständnis- und Bildgenerierungsmodellen (oder multimodalen Generierungsmodellen) wurden durch ihre quadratische Rechenkomplexität und ihre Abhängigkeit von groß angelegten Trainingsdaten behindert. Wir stellen OmniMamba vor, das erste auf einer linearen Architektur basierende multimodale Generierungsmodell, das sowohl Text als auch Bilder durch ein einheitliches Next-Token-Prediction-Paradigma erzeugt. Das Modell nutzt die hohe Rechen- und Speichereffizienz von Mamba-2 voll aus und erweitert dessen Fähigkeiten von der Textgenerierung auf die multimodale Generierung. Um die Datenineffizienz bestehender einheitlicher Modelle zu beheben, schlagen wir zwei wesentliche Innovationen vor: (1) entkoppelte Vokabulare zur Steuerung der modalspezifischen Generierung und (2) aufgaben spezifisches LoRA für parameter effiziente Anpassung. Darüber hinaus führen wir eine entkoppelte zweistufige Trainingsstrategie ein, um das Datenungleichgewicht zwischen den beiden Aufgaben zu mildern. Mit diesen Techniken ausgestattet, erzielt OmniMamba eine wettbewerbsfähige Leistung mit JanusFlow und übertrifft Show-o in Benchmarks, obwohl es lediglich mit 2 Millionen Bild-Text-Paaren trainiert wurde, was 1.000 Mal weniger ist als bei Show-o. Besonders hervorzuheben ist, dass OmniMamba mit herausragender Inferenzeffizienz glänzt und im Vergleich zu Transformer-basierten Gegenstücken eine Beschleunigung um das 119,2-fache und eine Reduzierung des GPU-Speichers um 63 % für die Langsequenzgenerierung erreicht. Code und Modelle sind unter https://github.com/hustvl/OmniMamba veröffentlicht.
English
Recent advancements in unified multimodal understanding and visual generation
(or multimodal generation) models have been hindered by their quadratic
computational complexity and dependence on large-scale training data. We
present OmniMamba, the first linear-architecture-based multimodal generation
model that generates both text and images through a unified next-token
prediction paradigm. The model fully leverages Mamba-2's high computational and
memory efficiency, extending its capabilities from text generation to
multimodal generation. To address the data inefficiency of existing unified
models, we propose two key innovations: (1) decoupled vocabularies to guide
modality-specific generation, and (2) task-specific LoRA for
parameter-efficient adaptation. Furthermore, we introduce a decoupled two-stage
training strategy to mitigate data imbalance between two tasks. Equipped with
these techniques, OmniMamba achieves competitive performance with JanusFlow
while surpassing Show-o across benchmarks, despite being trained on merely 2M
image-text pairs, which is 1,000 times fewer than Show-o. Notably, OmniMamba
stands out with outstanding inference efficiency, achieving up to a 119.2 times
speedup and 63% GPU memory reduction for long-sequence generation compared to
Transformer-based counterparts. Code and models are released at
https://github.com/hustvl/OmniMambaSummary
AI-Generated Summary