ChatPaper.aiChatPaper

Generatief beeldmodelleren verbeteren via gezamenlijke beeld-kenmerksynthese

Boosting Generative Image Modeling via Joint Image-Feature Synthesis

April 22, 2025
Auteurs: Theodoros Kouzelis, Efstathios Karypidis, Ioannis Kakogeorgiou, Spyros Gidaris, Nikos Komodakis
cs.AI

Samenvatting

Latente diffusiemodellen (LDMs) domineren hoogwaardige beeldgeneratie, maar het integreren van representatieleren met generatieve modellering blijft een uitdaging. Wij introduceren een nieuw generatief beeldmodelleringsraamwerk dat deze kloof naadloos overbrugt door gebruik te maken van een diffusiemodel om zowel laagniveau beeldlatenten (van een variational autoencoder) als hoog-niveau semantische kenmerken (van een vooraf getrainde zelf-superviserende encoder zoals DINO) gezamenlijk te modelleren. Onze latent-semantische diffusiebenadering leert coherente beeld-kenmerkparen te genereren vanuit puur ruis, wat zowel de generatieve kwaliteit als de trainings efficiëntie aanzienlijk verbetert, terwijl slechts minimale aanpassingen aan standaard Diffusion Transformer-architecturen nodig zijn. Door de noodzaak voor complexe distillatiedoelen te elimineren, vereenvoudigt ons uniforme ontwerp de training en ontgrendelt het een krachtige nieuwe inferentiestrategie: Representatiebegeleiding, die gebruikmaakt van geleerde semantiek om beeldgeneratie te sturen en te verfijnen. Geëvalueerd in zowel conditionele als niet-conditionele settings, levert onze methode aanzienlijke verbeteringen op in beeldkwaliteit en trainingsconvergentiesnelheid, waarmee een nieuwe richting wordt ingezet voor representatiebewuste generatieve modellering.
English
Latent diffusion models (LDMs) dominate high-quality image generation, yet integrating representation learning with generative modeling remains a challenge. We introduce a novel generative image modeling framework that seamlessly bridges this gap by leveraging a diffusion model to jointly model low-level image latents (from a variational autoencoder) and high-level semantic features (from a pretrained self-supervised encoder like DINO). Our latent-semantic diffusion approach learns to generate coherent image-feature pairs from pure noise, significantly enhancing both generative quality and training efficiency, all while requiring only minimal modifications to standard Diffusion Transformer architectures. By eliminating the need for complex distillation objectives, our unified design simplifies training and unlocks a powerful new inference strategy: Representation Guidance, which leverages learned semantics to steer and refine image generation. Evaluated in both conditional and unconditional settings, our method delivers substantial improvements in image quality and training convergence speed, establishing a new direction for representation-aware generative modeling.

Summary

AI-Generated Summary

PDF122April 25, 2025