ChatPaper.aiChatPaper

Distillation d'ordres sémantiquement conscients pour la génération d'images autorégressive

Distilling semantically aware orders for autoregressive image generation

April 23, 2025
Auteurs: Rishav Pramanik, Antoine Poupon, Juan A. Rodriguez, Masih Aminbeidokhti, David Vazquez, Christopher Pal, Zhaozheng Yin, Marco Pedersoli
cs.AI

Résumé

La génération d'images basée sur des patchs autorégressifs a récemment démontré des résultats compétitifs en termes de qualité d'image et de scalabilité. Elle peut également être facilement intégrée et mise à l'échelle dans des modèles vision-langage. Cependant, les modèles autorégressifs nécessitent un ordre défini pour la génération des patchs. Alors qu'un ordre naturel basé sur la dictée des mots est logique pour la génération de texte, il n'existe pas d'ordre de génération inhérent pour la génération d'images. Traditionnellement, un ordre de balayage raster (de haut en bas et de gauche à droite) guide les modèles de génération d'images autorégressifs. Dans cet article, nous soutenons que cet ordre est sous-optimal, car il ne respecte pas la causalité du contenu de l'image : par exemple, lorsqu'il est conditionné par une description visuelle d'un coucher de soleil, un modèle autorégressif peut générer les nuages avant le soleil, bien que la couleur des nuages devrait dépendre de la couleur du soleil et non l'inverse. Dans ce travail, nous montrons que, premièrement, en entraînant un modèle à générer des patchs dans un ordre quelconque, nous pouvons inférer à la fois le contenu et l'emplacement (ordre) de chaque patch lors de la génération. Deuxièmement, nous utilisons ces ordres extraits pour affiner le modèle à ordre quelconque afin de produire des images de meilleure qualité. À travers nos expériences, nous démontrons sur deux jeux de données que cette nouvelle méthode de génération produit de meilleures images que l'approche traditionnelle de balayage raster, avec des coûts d'entraînement similaires et sans annotations supplémentaires.
English
Autoregressive patch-based image generation has recently shown competitive results in terms of image quality and scalability. It can also be easily integrated and scaled within Vision-Language models. Nevertheless, autoregressive models require a defined order for patch generation. While a natural order based on the dictation of the words makes sense for text generation, there is no inherent generation order that exists for image generation. Traditionally, a raster-scan order (from top-left to bottom-right) guides autoregressive image generation models. In this paper, we argue that this order is suboptimal, as it fails to respect the causality of the image content: for instance, when conditioned on a visual description of a sunset, an autoregressive model may generate clouds before the sun, even though the color of clouds should depend on the color of the sun and not the inverse. In this work, we show that first by training a model to generate patches in any-given-order, we can infer both the content and the location (order) of each patch during generation. Secondly, we use these extracted orders to finetune the any-given-order model to produce better-quality images. Through our experiments, we show on two datasets that this new generation method produces better images than the traditional raster-scan approach, with similar training costs and no extra annotations.

Summary

AI-Generated Summary

PDF52April 25, 2025