Het destilleren van semantisch bewuste volgordes voor autoregressieve beeldgeneratie

Samenvatting

Autoregressieve op patches gebaseerde beeldgeneratie heeft recentelijk competitieve resultaten getoond wat betreft beeldkwaliteit en schaalbaarheid. Het kan ook eenvoudig worden geïntegreerd en opgeschaald binnen Vision-Language-modellen. Desalniettemin vereisen autoregressieve modellen een gedefinieerde volgorde voor het genereren van patches. Hoewel een natuurlijke volgorde gebaseerd op de dictie van woorden logisch is voor tekstgeneratie, bestaat er geen inherente generatievolgorde voor beeldgeneratie. Traditioneel wordt een raster-scan volgorde (van linksboven naar rechtsonder) gebruikt om autoregressieve beeldgeneratiemodellen te sturen. In dit artikel betogen wij dat deze volgorde suboptimaal is, omdat deze de causaliteit van de beeldinhoud niet respecteert: bijvoorbeeld, wanneer een model wordt geconditioneerd op een visuele beschrijving van een zonsondergang, kan het model wolken genereren voordat de zon wordt gegenereerd, terwijl de kleur van de wolken afhankelijk zou moeten zijn van de kleur van de zon en niet omgekeerd. In dit werk tonen wij aan dat we, door eerst een model te trainen om patches in een willekeurige volgorde te genereren, zowel de inhoud als de locatie (volgorde) van elke patch tijdens de generatie kunnen afleiden. Ten tweede gebruiken wij deze geëxtraheerde volgordes om het willekeurige-volgorde-model te finetunen om beelden van betere kwaliteit te produceren. Door middel van onze experimenten tonen wij aan op twee datasets dat deze nieuwe generatiemethode betere beelden produceert dan de traditionele raster-scan aanpak, met vergelijkbare trainingskosten en zonder extra annotaties.

English

Autoregressive patch-based image generation has recently shown competitive results in terms of image quality and scalability. It can also be easily integrated and scaled within Vision-Language models. Nevertheless, autoregressive models require a defined order for patch generation. While a natural order based on the dictation of the words makes sense for text generation, there is no inherent generation order that exists for image generation. Traditionally, a raster-scan order (from top-left to bottom-right) guides autoregressive image generation models. In this paper, we argue that this order is suboptimal, as it fails to respect the causality of the image content: for instance, when conditioned on a visual description of a sunset, an autoregressive model may generate clouds before the sun, even though the color of clouds should depend on the color of the sun and not the inverse. In this work, we show that first by training a model to generate patches in any-given-order, we can infer both the content and the location (order) of each patch during generation. Secondly, we use these extracted orders to finetune the any-given-order model to produce better-quality images. Through our experiments, we show on two datasets that this new generation method produces better images than the traditional raster-scan approach, with similar training costs and no extra annotations.

Het destilleren van semantisch bewuste volgordes voor autoregressieve beeldgeneratie

Distilling semantically aware orders for autoregressive image generation

Samenvatting

Summary

Support

Support