ARMOR v0.1: Stärkung des autoregressiven multimodalen Verständnismodells durch verschachtelte multimodale Generierung mittels asymmetrischer Synergie

Zusammenfassung

Einheitliche Modelle (UniMs) für multimodales Verständnis und Generierung haben in letzter Zeit im Bereich der Vision und Sprache viel Aufmerksamkeit erhalten. Bisherige UniMs sind darauf ausgelegt, sowohl multimodales Verständnis als auch Generierungsfähigkeiten gleichzeitig zu erlernen, was erhebliche Rechenressourcen erfordert und oft Schwierigkeiten bei der Generierung von verschachteltem Text und Bild hat. Wir stellen ARMOR vor, ein ressourceneffizientes und rein autoregressives Framework, das sowohl Verständnis als auch Generierung durch das Feinabstimmen bestehender multimodaler großer Sprachmodelle (MLLMs) erreicht. Konkret erweitert ARMOR bestehende MLLMs aus drei Perspektiven: (1) Für die Modellarchitektur wird eine asymmetrische Encoder-Decoder-Architektur mit einem Vorwärtsumschaltmechanismus eingeführt, um den Einbettungsraum zu vereinheitlichen, der textuelle und visuelle Modalitäten integriert, um die natürliche Generierung von verschachteltem Text und Bild mit minimalem Rechenaufwand zu ermöglichen. (2) Für die Trainingsdaten wird ein sorgfältig kuratiertes, hochwertiges verschachteltes Datenset gesammelt, um MLLMs fein abzustimmen. (3) Für den Trainingsalgorithmus schlagen wir einen „Was oder wie zu generieren“-Algorithmus vor, um bestehende MLLMs mit multimodalen Generierungsfähigkeiten auszustatten, während ihre multimodalen Verständnisfähigkeiten durch drei progressive Trainingsphasen basierend auf dem gesammelten Datenset erhalten bleiben. Experimentelle Ergebnisse zeigen, dass ARMOR bestehende MLLMs zu UniMs mit vielversprechenden Bildgenerierungsfähigkeiten aufwertet, wobei begrenzte Trainingsressourcen verwendet werden. Unser Code wird bald unter https://armor.github.io veröffentlicht.

English

Unified models (UniMs) for multimodal understanding and generation have recently received much attention in the area of vision and language. Existing UniMs are designed to simultaneously learn both multimodal understanding and generation capabilities, demanding substantial computational resources, and often struggle to generate interleaved text-image. We present ARMOR, a resource-efficient and pure autoregressive framework that achieves both understanding and generation by fine-tuning existing multimodal large language models (MLLMs). Specifically, ARMOR extends existing MLLMs from three perspectives: (1) For model architecture, an asymmetric encoder-decoder architecture with a forward-switching mechanism is introduced to unify embedding space integrating textual and visual modalities for enabling natural text-image interleaved generation with minimal computational overhead. (2) For training data, a meticulously curated, high-quality interleaved dataset is collected for fine-tuning MLLMs. (3) For the training algorithm, we propose a ``what or how to generate" algorithm to empower existing MLLMs with multimodal generation capabilities while preserving their multimodal understanding capabilities, through three progressive training stages based on the collected dataset. Experimental results demonstrate that ARMOR upgrades existing MLLMs to UniMs with promising image generation capabilities, using limited training resources. Our code will be released soon at https://armor.github.io.

ARMOR v0.1: Stärkung des autoregressiven multimodalen Verständnismodells durch verschachtelte multimodale Generierung mittels asymmetrischer Synergie

ARMOR v0.1: Empowering Autoregressive Multimodal Understanding Model with Interleaved Multimodal Generation via Asymmetric Synergy

Zusammenfassung

Summary

Support

Support