Verbesserung der generativen Bildmodellierung durch gemeinsame Bild-Feature-Synthese
Boosting Generative Image Modeling via Joint Image-Feature Synthesis
April 22, 2025
Autoren: Theodoros Kouzelis, Efstathios Karypidis, Ioannis Kakogeorgiou, Spyros Gidaris, Nikos Komodakis
cs.AI
Zusammenfassung
Latent-Diffusionsmodelle (LDMs) dominieren die hochwertige Bildgenerierung, doch die Integration von Repräsentationslernen mit generativer Modellierung bleibt eine Herausforderung. Wir stellen ein neuartiges Framework für die generative Bildmodellierung vor, das diese Lücke nahtlos schließt, indem es ein Diffusionsmodell nutzt, um sowohl niedrigdimensionale Bildlatenten (aus einem variationalen Autoencoder) als auch hochdimensionale semantische Merkmale (aus einem vortrainierten, selbstüberwachten Encoder wie DINO) gemeinsam zu modellieren. Unser latent-semantischer Diffusionsansatz lernt, kohärente Bild-Merkmal-Paare aus reinem Rauschen zu generieren, was sowohl die generative Qualität als auch die Trainings effizienz erheblich verbessert, während nur minimale Anpassungen an standardmäßige Diffusion-Transformer-Architekturen erforderlich sind. Durch den Verzicht auf komplexe Destillationsziele vereinfacht unser einheitliches Design das Training und ermöglicht eine leistungsstarke neue Inferenzstrategie: Representation Guidance, die gelernte Semantik nutzt, um die Bildgenerierung zu steuern und zu verfeinern. Sowohl in bedingten als auch unbedingten Szenarien evaluiert, liefert unsere Methode erhebliche Verbesserungen in der Bildqualität und der Trainingskonvergenzgeschwindigkeit und etabliert damit eine neue Richtung für repräsentationsbewusste generative Modellierung.
English
Latent diffusion models (LDMs) dominate high-quality image generation, yet
integrating representation learning with generative modeling remains a
challenge. We introduce a novel generative image modeling framework that
seamlessly bridges this gap by leveraging a diffusion model to jointly model
low-level image latents (from a variational autoencoder) and high-level
semantic features (from a pretrained self-supervised encoder like DINO). Our
latent-semantic diffusion approach learns to generate coherent image-feature
pairs from pure noise, significantly enhancing both generative quality and
training efficiency, all while requiring only minimal modifications to standard
Diffusion Transformer architectures. By eliminating the need for complex
distillation objectives, our unified design simplifies training and unlocks a
powerful new inference strategy: Representation Guidance, which leverages
learned semantics to steer and refine image generation. Evaluated in both
conditional and unconditional settings, our method delivers substantial
improvements in image quality and training convergence speed, establishing a
new direction for representation-aware generative modeling.Summary
AI-Generated Summary