Destillieren semantisch bewusster Reihenfolgen für autoregressive Bildgenerierung

Zusammenfassung

Autoregressive, patch-basierte Bildgenerierung hat kürzlich wettbewerbsfähige Ergebnisse in Bezug auf Bildqualität und Skalierbarkeit gezeigt. Sie kann auch einfach in Vision-Language-Modelle integriert und skaliert werden. Dennoch erfordern autoregressive Modelle eine definierte Reihenfolge für die Patch-Generierung. Während eine natürliche Reihenfolge, die auf der Diktion der Wörter basiert, für die Textgenerierung sinnvoll ist, gibt es keine inhärente Generierungsreihenfolge, die für die Bildgenerierung existiert. Traditionell leitet eine Raster-Scan-Reihenfolge (von oben links nach unten rechts) autoregressive Bildgenerierungsmodelle. In diesem Papier argumentieren wir, dass diese Reihenfolge suboptimal ist, da sie die Kausalität des Bildinhalts nicht berücksichtigt: Zum Beispiel könnte ein autoregressives Modell, das auf eine visuelle Beschreibung eines Sonnenuntergangs konditioniert ist, Wolken vor der Sonne generieren, obwohl die Farbe der Wolken von der Farbe der Sonne abhängen sollte und nicht umgekehrt. In dieser Arbeit zeigen wir, dass wir zunächst durch das Training eines Modells, das Patches in beliebiger Reihenfolge generiert, sowohl den Inhalt als auch die Position (Reihenfolge) jedes Patches während der Generierung ableiten können. Zweitens verwenden wir diese extrahierten Reihenfolgen, um das Modell für beliebige Reihenfolgen zu feintunen, um qualitativ bessere Bilder zu erzeugen. Durch unsere Experimente zeigen wir anhand von zwei Datensätzen, dass diese neue Generierungsmethode bessere Bilder erzeugt als der traditionelle Raster-Scan-Ansatz, bei ähnlichen Trainingskosten und ohne zusätzliche Annotationen.

English

Autoregressive patch-based image generation has recently shown competitive results in terms of image quality and scalability. It can also be easily integrated and scaled within Vision-Language models. Nevertheless, autoregressive models require a defined order for patch generation. While a natural order based on the dictation of the words makes sense for text generation, there is no inherent generation order that exists for image generation. Traditionally, a raster-scan order (from top-left to bottom-right) guides autoregressive image generation models. In this paper, we argue that this order is suboptimal, as it fails to respect the causality of the image content: for instance, when conditioned on a visual description of a sunset, an autoregressive model may generate clouds before the sun, even though the color of clouds should depend on the color of the sun and not the inverse. In this work, we show that first by training a model to generate patches in any-given-order, we can infer both the content and the location (order) of each patch during generation. Secondly, we use these extracted orders to finetune the any-given-order model to produce better-quality images. Through our experiments, we show on two datasets that this new generation method produces better images than the traditional raster-scan approach, with similar training costs and no extra annotations.

Destillieren semantisch bewusster Reihenfolgen für autoregressive Bildgenerierung

Distilling semantically aware orders for autoregressive image generation

Zusammenfassung

Summary

Support

Support