Geünificeerde Multimodale Discrete Diffusie

Samenvatting

Multimodale generatieve modellen die meerdere modaliteiten kunnen begrijpen en genereren, worden gedomineerd door autoregressieve (AR) benaderingen, waarbij tokens sequentieel van links naar rechts of van boven naar beneden worden verwerkt. Deze modellen verwerken gezamenlijk afbeeldingen, tekst, video en audio voor diverse taken zoals beeldbeschrijving, vraagbeantwoording en beeldgeneratie. In dit werk onderzoeken we discrete diffusiemodellen als een uniforme generatieve formulering in het domein van gecombineerde tekst en afbeeldingen, voortbouwend op hun recente succes in tekstgeneratie. Discrete diffusiemodellen bieden verschillende voordelen ten opzichte van AR-modellen, waaronder verbeterde controle over kwaliteit versus diversiteit van gegenereerde samples, de mogelijkheid om gezamenlijke multimodale inpainting uit te voeren (zowel in tekst- als beeld domeinen), en een grotere beheersbaarheid in generatie door middel van begeleiding. Door gebruik te maken van deze voordelen, presenteren we het eerste Unified Multimodal Discrete Diffusion (UniDisc) model, dat in staat is om gezamenlijk tekst en afbeeldingen te begrijpen en te genereren voor een verscheidenheid aan downstream taken. We vergelijken UniDisc met multimodale AR-modellen, voeren een schaalanalyse uit en tonen aan dat UniDisc deze overtreft op het gebied van prestaties en rekentijd tijdens inferentie, verbeterde beheersbaarheid, bewerkbaarheid, inpainting en flexibele afweging tussen inferentietijd en generatiekwaliteit. Code en aanvullende visualisaties zijn beschikbaar op https://unidisc.github.io.

English

Multimodal generative models that can understand and generate across multiple modalities are dominated by autoregressive (AR) approaches, which process tokens sequentially from left to right, or top to bottom. These models jointly handle images, text, video, and audio for various tasks such as image captioning, question answering, and image generation. In this work, we explore discrete diffusion models as a unified generative formulation in the joint text and image domain, building upon their recent success in text generation. Discrete diffusion models offer several advantages over AR models, including improved control over quality versus diversity of generated samples, the ability to perform joint multimodal inpainting (across both text and image domains), and greater controllability in generation through guidance. Leveraging these benefits, we present the first Unified Multimodal Discrete Diffusion (UniDisc) model which is capable of jointly understanding and generating text and images for a variety of downstream tasks. We compare UniDisc to multimodal AR models, performing a scaling analysis and demonstrating that UniDisc outperforms them in terms of both performance and inference-time compute, enhanced controllability, editability, inpainting, and flexible trade-off between inference time and generation quality. Code and additional visualizations are available at https://unidisc.github.io.

Geünificeerde Multimodale Discrete Diffusie

Unified Multimodal Discrete Diffusion

Samenvatting

Summary

Support

Support