BiGR : Exploiter les codes latents binaires pour la génération d'images et l'amélioration des capacités de représentation visuelle
BiGR: Harnessing Binary Latent Codes for Image Generation and Improved Visual Representation Capabilities
October 18, 2024
Auteurs: Shaozhe Hao, Xuantong Liu, Xianbiao Qi, Shihao Zhao, Bojia Zi, Rong Xiao, Kai Han, Kwan-Yee K. Wong
cs.AI
Résumé
Nous présentons BiGR, un nouveau modèle de génération d'images conditionnelles utilisant des codes latents binaires compacts pour l'entraînement génératif, mettant l'accent sur l'amélioration des capacités de génération et de représentation. BiGR est le premier modèle génératif conditionnel qui unifie la génération et la discrimination au sein du même cadre. BiGR présente un tokeniseur binaire, un mécanisme de modélisation masqué et un transcodeur binaire pour la prédiction de codes binaires. De plus, nous introduisons une nouvelle méthode d'échantillonnage ordonnée par entropie pour permettre une génération d'images efficace. Des expériences approfondies valident les performances supérieures de BiGR en termes de qualité de génération, mesurée par FID-50k, et de capacités de représentation, comme en témoigne la précision de la sonde linéaire. De plus, BiGR démontre une généralisation sans apprentissage sur diverses tâches de vision, permettant des applications telles que l'inpainting, l'outpainting, l'édition, l'interpolation et l'enrichissement d'images, sans nécessiter de modifications structurelles. Nos résultats suggèrent que BiGR unifie efficacement les tâches génératives et discriminatives, ouvrant la voie à de nouvelles avancées dans le domaine.
English
We introduce BiGR, a novel conditional image generation model using compact
binary latent codes for generative training, focusing on enhancing both
generation and representation capabilities. BiGR is the first conditional
generative model that unifies generation and discrimination within the same
framework. BiGR features a binary tokenizer, a masked modeling mechanism, and a
binary transcoder for binary code prediction. Additionally, we introduce a
novel entropy-ordered sampling method to enable efficient image generation.
Extensive experiments validate BiGR's superior performance in generation
quality, as measured by FID-50k, and representation capabilities, as evidenced
by linear-probe accuracy. Moreover, BiGR showcases zero-shot generalization
across various vision tasks, enabling applications such as image inpainting,
outpainting, editing, interpolation, and enrichment, without the need for
structural modifications. Our findings suggest that BiGR unifies generative and
discriminative tasks effectively, paving the way for further advancements in
the field.Summary
AI-Generated Summary