Generatief beeldmodelleren verbeteren via gezamenlijke beeld-kenmerksynthese
Boosting Generative Image Modeling via Joint Image-Feature Synthesis
April 22, 2025
Auteurs: Theodoros Kouzelis, Efstathios Karypidis, Ioannis Kakogeorgiou, Spyros Gidaris, Nikos Komodakis
cs.AI
Samenvatting
Latente diffusiemodellen (LDMs) domineren hoogwaardige beeldgeneratie, maar het integreren van representatieleren met generatieve modellering blijft een uitdaging. Wij introduceren een nieuw generatief beeldmodelleringsraamwerk dat deze kloof naadloos overbrugt door gebruik te maken van een diffusiemodel om zowel laagniveau beeldlatenten (van een variational autoencoder) als hoog-niveau semantische kenmerken (van een vooraf getrainde zelf-superviserende encoder zoals DINO) gezamenlijk te modelleren. Onze latent-semantische diffusiebenadering leert coherente beeld-kenmerkparen te genereren vanuit puur ruis, wat zowel de generatieve kwaliteit als de trainings efficiëntie aanzienlijk verbetert, terwijl slechts minimale aanpassingen aan standaard Diffusion Transformer-architecturen nodig zijn. Door de noodzaak voor complexe distillatiedoelen te elimineren, vereenvoudigt ons uniforme ontwerp de training en ontgrendelt het een krachtige nieuwe inferentiestrategie: Representatiebegeleiding, die gebruikmaakt van geleerde semantiek om beeldgeneratie te sturen en te verfijnen. Geëvalueerd in zowel conditionele als niet-conditionele settings, levert onze methode aanzienlijke verbeteringen op in beeldkwaliteit en trainingsconvergentiesnelheid, waarmee een nieuwe richting wordt ingezet voor representatiebewuste generatieve modellering.
English
Latent diffusion models (LDMs) dominate high-quality image generation, yet
integrating representation learning with generative modeling remains a
challenge. We introduce a novel generative image modeling framework that
seamlessly bridges this gap by leveraging a diffusion model to jointly model
low-level image latents (from a variational autoencoder) and high-level
semantic features (from a pretrained self-supervised encoder like DINO). Our
latent-semantic diffusion approach learns to generate coherent image-feature
pairs from pure noise, significantly enhancing both generative quality and
training efficiency, all while requiring only minimal modifications to standard
Diffusion Transformer architectures. By eliminating the need for complex
distillation objectives, our unified design simplifies training and unlocks a
powerful new inference strategy: Representation Guidance, which leverages
learned semantics to steer and refine image generation. Evaluated in both
conditional and unconditional settings, our method delivers substantial
improvements in image quality and training convergence speed, establishing a
new direction for representation-aware generative modeling.Summary
AI-Generated Summary