Amélioration de la modélisation générative d'images via la synthèse conjointe image-caractéristiques

Résumé

Les modèles de diffusion latente (LDMs) dominent la génération d'images de haute qualité, mais l'intégration de l'apprentissage de représentations avec la modélisation générative reste un défi. Nous introduisons un nouveau cadre de modélisation générative d'images qui comble de manière fluide cet écart en exploitant un modèle de diffusion pour modéliser conjointement les latents de bas niveau (provenant d'un autoencodeur variationnel) et les caractéristiques sémantiques de haut niveau (issues d'un encodeur auto-supervisé pré-entraîné comme DINO). Notre approche de diffusion latente-sémantique apprend à générer des paires image-caractéristiques cohérentes à partir de bruit pur, améliorant significativement à la fois la qualité générative et l'efficacité de l'entraînement, tout en nécessitant seulement des modifications minimales aux architectures standard des Transformers de Diffusion. En éliminant le besoin d'objectifs de distillation complexes, notre conception unifiée simplifie l'entraînement et débloque une nouvelle stratégie d'inférence puissante : le Guidage par Représentation, qui exploite les sémantiques apprises pour orienter et affiner la génération d'images. Évaluée dans des contextes conditionnels et non conditionnels, notre méthode apporte des améliorations substantielles en termes de qualité d'image et de vitesse de convergence de l'entraînement, établissant une nouvelle direction pour la modélisation générative consciente des représentations.

English

Latent diffusion models (LDMs) dominate high-quality image generation, yet integrating representation learning with generative modeling remains a challenge. We introduce a novel generative image modeling framework that seamlessly bridges this gap by leveraging a diffusion model to jointly model low-level image latents (from a variational autoencoder) and high-level semantic features (from a pretrained self-supervised encoder like DINO). Our latent-semantic diffusion approach learns to generate coherent image-feature pairs from pure noise, significantly enhancing both generative quality and training efficiency, all while requiring only minimal modifications to standard Diffusion Transformer architectures. By eliminating the need for complex distillation objectives, our unified design simplifies training and unlocks a powerful new inference strategy: Representation Guidance, which leverages learned semantics to steer and refine image generation. Evaluated in both conditional and unconditional settings, our method delivers substantial improvements in image quality and training convergence speed, establishing a new direction for representation-aware generative modeling.

Amélioration de la modélisation générative d'images via la synthèse conjointe image-caractéristiques

Boosting Generative Image Modeling via Joint Image-Feature Synthesis

Résumé

Summary

Support

Support