JanusFlow : Harmonisation de l'autorégression et du flux redressé pour une compréhension et une génération multimodales unifiées.

JanusFlow: Harmonizing Autoregression and Rectified Flow for Unified Multimodal Understanding and Generation

November 12, 2024
Auteurs: Yiyang Ma, Xingchao Liu, Xiaokang Chen, Wen Liu, Chengyue Wu, Zhiyu Wu, Zizheng Pan, Zhenda Xie, Haowei Zhang, Xingkai yu, Liang Zhao, Yisong Wang, Jiaying Liu, Chong Ruan
cs.AI

Résumé

Nous présentons JanusFlow, un cadre puissant qui unifie la compréhension et la génération d'images dans un seul modèle. JanusFlow introduit une architecture minimaliste qui intègre des modèles de langage autorégressifs avec un flux rectifié, une méthode de pointe en modélisation générative. Notre découverte clé démontre que le flux rectifié peut être entraîné de manière simple dans le cadre du grand modèle de langage, éliminant ainsi le besoin de modifications architecturales complexes. Pour améliorer davantage les performances de notre modèle unifié, nous adoptons deux stratégies clés : (i) découpler les encodeurs de compréhension et de génération, et (ii) aligner leurs représentations lors de l'entraînement unifié. Des expériences approfondies montrent que JanusFlow atteint des performances comparables ou supérieures aux modèles spécialisés dans leurs domaines respectifs, tout en surpassant significativement les approches unifiées existantes sur les bancs d'essai standard. Ce travail représente une avancée vers des modèles vision-langage plus efficaces et polyvalents.
English
We present JanusFlow, a powerful framework that unifies image understanding and generation in a single model. JanusFlow introduces a minimalist architecture that integrates autoregressive language models with rectified flow, a state-of-the-art method in generative modeling. Our key finding demonstrates that rectified flow can be straightforwardly trained within the large language model framework, eliminating the need for complex architectural modifications. To further improve the performance of our unified model, we adopt two key strategies: (i) decoupling the understanding and generation encoders, and (ii) aligning their representations during unified training. Extensive experiments show that JanusFlow achieves comparable or superior performance to specialized models in their respective domains, while significantly outperforming existing unified approaches across standard benchmarks. This work represents a step toward more efficient and versatile vision-language models.

Summary

AI-Generated Summary

PDF242November 13, 2024