JanusFlow : Harmonisation de l'autorégression et du flux redressé pour une compréhension et une génération multimodales unifiées.
JanusFlow: Harmonizing Autoregression and Rectified Flow for Unified Multimodal Understanding and Generation
November 12, 2024
Auteurs: Yiyang Ma, Xingchao Liu, Xiaokang Chen, Wen Liu, Chengyue Wu, Zhiyu Wu, Zizheng Pan, Zhenda Xie, Haowei Zhang, Xingkai yu, Liang Zhao, Yisong Wang, Jiaying Liu, Chong Ruan
cs.AI
Résumé
Nous présentons JanusFlow, un cadre puissant qui unifie la compréhension et la génération d'images dans un seul modèle. JanusFlow introduit une architecture minimaliste qui intègre des modèles de langage autorégressifs avec un flux rectifié, une méthode de pointe en modélisation générative. Notre découverte clé démontre que le flux rectifié peut être entraîné de manière simple dans le cadre du grand modèle de langage, éliminant ainsi le besoin de modifications architecturales complexes. Pour améliorer davantage les performances de notre modèle unifié, nous adoptons deux stratégies clés : (i) découpler les encodeurs de compréhension et de génération, et (ii) aligner leurs représentations lors de l'entraînement unifié. Des expériences approfondies montrent que JanusFlow atteint des performances comparables ou supérieures aux modèles spécialisés dans leurs domaines respectifs, tout en surpassant significativement les approches unifiées existantes sur les bancs d'essai standard. Ce travail représente une avancée vers des modèles vision-langage plus efficaces et polyvalents.
English
We present JanusFlow, a powerful framework that unifies image understanding
and generation in a single model. JanusFlow introduces a minimalist
architecture that integrates autoregressive language models with rectified
flow, a state-of-the-art method in generative modeling. Our key finding
demonstrates that rectified flow can be straightforwardly trained within the
large language model framework, eliminating the need for complex architectural
modifications. To further improve the performance of our unified model, we
adopt two key strategies: (i) decoupling the understanding and generation
encoders, and (ii) aligning their representations during unified training.
Extensive experiments show that JanusFlow achieves comparable or superior
performance to specialized models in their respective domains, while
significantly outperforming existing unified approaches across standard
benchmarks. This work represents a step toward more efficient and versatile
vision-language models.Summary
AI-Generated Summary