Geünificeerde Multimodale Discrete Diffusie
Unified Multimodal Discrete Diffusion
March 26, 2025
Auteurs: Alexander Swerdlow, Mihir Prabhudesai, Siddharth Gandhi, Deepak Pathak, Katerina Fragkiadaki
cs.AI
Samenvatting
Multimodale generatieve modellen die meerdere modaliteiten kunnen begrijpen en genereren, worden gedomineerd door autoregressieve (AR) benaderingen, waarbij tokens sequentieel van links naar rechts of van boven naar beneden worden verwerkt. Deze modellen verwerken gezamenlijk afbeeldingen, tekst, video en audio voor diverse taken zoals beeldbeschrijving, vraagbeantwoording en beeldgeneratie. In dit werk onderzoeken we discrete diffusiemodellen als een uniforme generatieve formulering in het domein van gecombineerde tekst en afbeeldingen, voortbouwend op hun recente succes in tekstgeneratie. Discrete diffusiemodellen bieden verschillende voordelen ten opzichte van AR-modellen, waaronder verbeterde controle over kwaliteit versus diversiteit van gegenereerde samples, de mogelijkheid om gezamenlijke multimodale inpainting uit te voeren (zowel in tekst- als beeld domeinen), en een grotere beheersbaarheid in generatie door middel van begeleiding. Door gebruik te maken van deze voordelen, presenteren we het eerste Unified Multimodal Discrete Diffusion (UniDisc) model, dat in staat is om gezamenlijk tekst en afbeeldingen te begrijpen en te genereren voor een verscheidenheid aan downstream taken. We vergelijken UniDisc met multimodale AR-modellen, voeren een schaalanalyse uit en tonen aan dat UniDisc deze overtreft op het gebied van prestaties en rekentijd tijdens inferentie, verbeterde beheersbaarheid, bewerkbaarheid, inpainting en flexibele afweging tussen inferentietijd en generatiekwaliteit. Code en aanvullende visualisaties zijn beschikbaar op https://unidisc.github.io.
English
Multimodal generative models that can understand and generate across multiple
modalities are dominated by autoregressive (AR) approaches, which process
tokens sequentially from left to right, or top to bottom. These models jointly
handle images, text, video, and audio for various tasks such as image
captioning, question answering, and image generation. In this work, we explore
discrete diffusion models as a unified generative formulation in the joint text
and image domain, building upon their recent success in text generation.
Discrete diffusion models offer several advantages over AR models, including
improved control over quality versus diversity of generated samples, the
ability to perform joint multimodal inpainting (across both text and image
domains), and greater controllability in generation through guidance.
Leveraging these benefits, we present the first Unified Multimodal Discrete
Diffusion (UniDisc) model which is capable of jointly understanding and
generating text and images for a variety of downstream tasks. We compare
UniDisc to multimodal AR models, performing a scaling analysis and
demonstrating that UniDisc outperforms them in terms of both performance and
inference-time compute, enhanced controllability, editability, inpainting, and
flexible trade-off between inference time and generation quality. Code and
additional visualizations are available at https://unidisc.github.io.Summary
AI-Generated Summary