ARMOR v0.1: Stärkung des autoregressiven multimodalen Verständnismodells durch verschachtelte multimodale Generierung mittels asymmetrischer Synergie
ARMOR v0.1: Empowering Autoregressive Multimodal Understanding Model with Interleaved Multimodal Generation via Asymmetric Synergy
March 9, 2025
Autoren: Jianwen Sun, Yukang Feng, Chuanhao Li, Fanrui Zhang, Zizhen Li, Jiaxin Ai, Sizhuo Zhou, Yu Dai, Shenglin Zhang, Kaipeng Zhang
cs.AI
Zusammenfassung
Einheitliche Modelle (UniMs) für multimodales Verständnis und Generierung haben in letzter Zeit im Bereich der Vision und Sprache viel Aufmerksamkeit erhalten. Bisherige UniMs sind darauf ausgelegt, sowohl multimodales Verständnis als auch Generierungsfähigkeiten gleichzeitig zu erlernen, was erhebliche Rechenressourcen erfordert und oft Schwierigkeiten bei der Generierung von verschachteltem Text und Bild hat. Wir stellen ARMOR vor, ein ressourceneffizientes und rein autoregressives Framework, das sowohl Verständnis als auch Generierung durch das Feinabstimmen bestehender multimodaler großer Sprachmodelle (MLLMs) erreicht. Konkret erweitert ARMOR bestehende MLLMs aus drei Perspektiven: (1) Für die Modellarchitektur wird eine asymmetrische Encoder-Decoder-Architektur mit einem Vorwärtsumschaltmechanismus eingeführt, um den Einbettungsraum zu vereinheitlichen, der textuelle und visuelle Modalitäten integriert, um die natürliche Generierung von verschachteltem Text und Bild mit minimalem Rechenaufwand zu ermöglichen. (2) Für die Trainingsdaten wird ein sorgfältig kuratiertes, hochwertiges verschachteltes Datenset gesammelt, um MLLMs fein abzustimmen. (3) Für den Trainingsalgorithmus schlagen wir einen „Was oder wie zu generieren“-Algorithmus vor, um bestehende MLLMs mit multimodalen Generierungsfähigkeiten auszustatten, während ihre multimodalen Verständnisfähigkeiten durch drei progressive Trainingsphasen basierend auf dem gesammelten Datenset erhalten bleiben. Experimentelle Ergebnisse zeigen, dass ARMOR bestehende MLLMs zu UniMs mit vielversprechenden Bildgenerierungsfähigkeiten aufwertet, wobei begrenzte Trainingsressourcen verwendet werden. Unser Code wird bald unter https://armor.github.io veröffentlicht.
English
Unified models (UniMs) for multimodal understanding and generation have
recently received much attention in the area of vision and language. Existing
UniMs are designed to simultaneously learn both multimodal understanding and
generation capabilities, demanding substantial computational resources, and
often struggle to generate interleaved text-image. We present ARMOR, a
resource-efficient and pure autoregressive framework that achieves both
understanding and generation by fine-tuning existing multimodal large language
models (MLLMs). Specifically, ARMOR extends existing MLLMs from three
perspectives: (1) For model architecture, an asymmetric encoder-decoder
architecture with a forward-switching mechanism is introduced to unify
embedding space integrating textual and visual modalities for enabling natural
text-image interleaved generation with minimal computational overhead. (2) For
training data, a meticulously curated, high-quality interleaved dataset is
collected for fine-tuning MLLMs. (3) For the training algorithm, we propose a
``what or how to generate" algorithm to empower existing MLLMs with multimodal
generation capabilities while preserving their multimodal understanding
capabilities, through three progressive training stages based on the collected
dataset. Experimental results demonstrate that ARMOR upgrades existing MLLMs to
UniMs with promising image generation capabilities, using limited training
resources. Our code will be released soon at https://armor.github.io.Summary
AI-Generated Summary