Amélioration de la modélisation générative d'images via la synthèse conjointe image-caractéristiques
Boosting Generative Image Modeling via Joint Image-Feature Synthesis
April 22, 2025
Auteurs: Theodoros Kouzelis, Efstathios Karypidis, Ioannis Kakogeorgiou, Spyros Gidaris, Nikos Komodakis
cs.AI
Résumé
Les modèles de diffusion latente (LDMs) dominent la génération d'images de haute qualité, mais l'intégration de l'apprentissage de représentations avec la modélisation générative reste un défi. Nous introduisons un nouveau cadre de modélisation générative d'images qui comble de manière fluide cet écart en exploitant un modèle de diffusion pour modéliser conjointement les latents de bas niveau (provenant d'un autoencodeur variationnel) et les caractéristiques sémantiques de haut niveau (issues d'un encodeur auto-supervisé pré-entraîné comme DINO). Notre approche de diffusion latente-sémantique apprend à générer des paires image-caractéristiques cohérentes à partir de bruit pur, améliorant significativement à la fois la qualité générative et l'efficacité de l'entraînement, tout en nécessitant seulement des modifications minimales aux architectures standard des Transformers de Diffusion. En éliminant le besoin d'objectifs de distillation complexes, notre conception unifiée simplifie l'entraînement et débloque une nouvelle stratégie d'inférence puissante : le Guidage par Représentation, qui exploite les sémantiques apprises pour orienter et affiner la génération d'images. Évaluée dans des contextes conditionnels et non conditionnels, notre méthode apporte des améliorations substantielles en termes de qualité d'image et de vitesse de convergence de l'entraînement, établissant une nouvelle direction pour la modélisation générative consciente des représentations.
English
Latent diffusion models (LDMs) dominate high-quality image generation, yet
integrating representation learning with generative modeling remains a
challenge. We introduce a novel generative image modeling framework that
seamlessly bridges this gap by leveraging a diffusion model to jointly model
low-level image latents (from a variational autoencoder) and high-level
semantic features (from a pretrained self-supervised encoder like DINO). Our
latent-semantic diffusion approach learns to generate coherent image-feature
pairs from pure noise, significantly enhancing both generative quality and
training efficiency, all while requiring only minimal modifications to standard
Diffusion Transformer architectures. By eliminating the need for complex
distillation objectives, our unified design simplifies training and unlocks a
powerful new inference strategy: Representation Guidance, which leverages
learned semantics to steer and refine image generation. Evaluated in both
conditional and unconditional settings, our method delivers substantial
improvements in image quality and training convergence speed, establishing a
new direction for representation-aware generative modeling.Summary
AI-Generated Summary