Verbesserung der generativen Bildmodellierung durch gemeinsame Bild-Feature-Synthese

Zusammenfassung

Latent-Diffusionsmodelle (LDMs) dominieren die hochwertige Bildgenerierung, doch die Integration von Repräsentationslernen mit generativer Modellierung bleibt eine Herausforderung. Wir stellen ein neuartiges Framework für die generative Bildmodellierung vor, das diese Lücke nahtlos schließt, indem es ein Diffusionsmodell nutzt, um sowohl niedrigdimensionale Bildlatenten (aus einem variationalen Autoencoder) als auch hochdimensionale semantische Merkmale (aus einem vortrainierten, selbstüberwachten Encoder wie DINO) gemeinsam zu modellieren. Unser latent-semantischer Diffusionsansatz lernt, kohärente Bild-Merkmal-Paare aus reinem Rauschen zu generieren, was sowohl die generative Qualität als auch die Trainings effizienz erheblich verbessert, während nur minimale Anpassungen an standardmäßige Diffusion-Transformer-Architekturen erforderlich sind. Durch den Verzicht auf komplexe Destillationsziele vereinfacht unser einheitliches Design das Training und ermöglicht eine leistungsstarke neue Inferenzstrategie: Representation Guidance, die gelernte Semantik nutzt, um die Bildgenerierung zu steuern und zu verfeinern. Sowohl in bedingten als auch unbedingten Szenarien evaluiert, liefert unsere Methode erhebliche Verbesserungen in der Bildqualität und der Trainingskonvergenzgeschwindigkeit und etabliert damit eine neue Richtung für repräsentationsbewusste generative Modellierung.

English

Latent diffusion models (LDMs) dominate high-quality image generation, yet integrating representation learning with generative modeling remains a challenge. We introduce a novel generative image modeling framework that seamlessly bridges this gap by leveraging a diffusion model to jointly model low-level image latents (from a variational autoencoder) and high-level semantic features (from a pretrained self-supervised encoder like DINO). Our latent-semantic diffusion approach learns to generate coherent image-feature pairs from pure noise, significantly enhancing both generative quality and training efficiency, all while requiring only minimal modifications to standard Diffusion Transformer architectures. By eliminating the need for complex distillation objectives, our unified design simplifies training and unlocks a powerful new inference strategy: Representation Guidance, which leverages learned semantics to steer and refine image generation. Evaluated in both conditional and unconditional settings, our method delivers substantial improvements in image quality and training convergence speed, establishing a new direction for representation-aware generative modeling.

Verbesserung der generativen Bildmodellierung durch gemeinsame Bild-Feature-Synthese

Boosting Generative Image Modeling via Joint Image-Feature Synthesis

Zusammenfassung

Summary

Support

Support