Janus: Ontkoppeling van visuele codering voor verenigd multimodaal begrip en generatie

Janus: Decoupling Visual Encoding for Unified Multimodal Understanding and Generation

October 17, 2024
Auteurs: Chengyue Wu, Xiaokang Chen, Zhiyu Wu, Yiyang Ma, Xingchao Liu, Zizheng Pan, Wen Liu, Zhenda Xie, Xingkai Yu, Chong Ruan, Ping Luo
cs.AI

Samenvatting

In dit artikel introduceren we Janus, een autoregressief framework dat multimodale begrip en generatie verenigt. Voorafgaand onderzoek vertrouwt vaak op een enkele visuele encoder voor beide taken, zoals Chameleon. Echter, vanwege de verschillende niveaus van informatiegranulariteit die vereist zijn voor multimodaal begrip en generatie, kan deze benadering leiden tot suboptimale prestaties, met name in multimodaal begrip. Om dit probleem aan te pakken, splitsen we visuele codering op in afzonderlijke paden, terwijl we nog steeds gebruikmaken van een enkele, verenigde transformer-architectuur voor verwerking. De splitsing verlicht niet alleen het conflict tussen de rollen van de visuele encoder in begrip en generatie, maar verbetert ook de flexibiliteit van het framework. Bijvoorbeeld kunnen zowel de multimodale begrips- als generatiecomponenten onafhankelijk hun meest geschikte coderingsmethoden selecteren. Experimenten tonen aan dat Janus eerdere verenigde modellen overtreft en de prestaties van taakspecifieke modellen evenaart of overtreft. De eenvoud, hoge flexibiliteit en effectiviteit van Janus maken het een sterke kandidaat voor verenigde multimodale modellen van de volgende generatie.
English
In this paper, we introduce Janus, an autoregressive framework that unifies multimodal understanding and generation. Prior research often relies on a single visual encoder for both tasks, such as Chameleon. However, due to the differing levels of information granularity required by multimodal understanding and generation, this approach can lead to suboptimal performance, particularly in multimodal understanding. To address this issue, we decouple visual encoding into separate pathways, while still leveraging a single, unified transformer architecture for processing. The decoupling not only alleviates the conflict between the visual encoder's roles in understanding and generation, but also enhances the framework's flexibility. For instance, both the multimodal understanding and generation components can independently select their most suitable encoding methods. Experiments show that Janus surpasses previous unified model and matches or exceeds the performance of task-specific models. The simplicity, high flexibility, and effectiveness of Janus make it a strong candidate for next-generation unified multimodal models.

Summary

AI-Generated Summary

PDF274November 16, 2024