BiGR : Exploiter les codes latents binaires pour la génération d'images et l'amélioration des capacités de représentation visuelle

Résumé

Nous présentons BiGR, un nouveau modèle de génération d'images conditionnelles utilisant des codes latents binaires compacts pour l'entraînement génératif, mettant l'accent sur l'amélioration des capacités de génération et de représentation. BiGR est le premier modèle génératif conditionnel qui unifie la génération et la discrimination au sein du même cadre. BiGR présente un tokeniseur binaire, un mécanisme de modélisation masqué et un transcodeur binaire pour la prédiction de codes binaires. De plus, nous introduisons une nouvelle méthode d'échantillonnage ordonnée par entropie pour permettre une génération d'images efficace. Des expériences approfondies valident les performances supérieures de BiGR en termes de qualité de génération, mesurée par FID-50k, et de capacités de représentation, comme en témoigne la précision de la sonde linéaire. De plus, BiGR démontre une généralisation sans apprentissage sur diverses tâches de vision, permettant des applications telles que l'inpainting, l'outpainting, l'édition, l'interpolation et l'enrichissement d'images, sans nécessiter de modifications structurelles. Nos résultats suggèrent que BiGR unifie efficacement les tâches génératives et discriminatives, ouvrant la voie à de nouvelles avancées dans le domaine.

English

We introduce BiGR, a novel conditional image generation model using compact binary latent codes for generative training, focusing on enhancing both generation and representation capabilities. BiGR is the first conditional generative model that unifies generation and discrimination within the same framework. BiGR features a binary tokenizer, a masked modeling mechanism, and a binary transcoder for binary code prediction. Additionally, we introduce a novel entropy-ordered sampling method to enable efficient image generation. Extensive experiments validate BiGR's superior performance in generation quality, as measured by FID-50k, and representation capabilities, as evidenced by linear-probe accuracy. Moreover, BiGR showcases zero-shot generalization across various vision tasks, enabling applications such as image inpainting, outpainting, editing, interpolation, and enrichment, without the need for structural modifications. Our findings suggest that BiGR unifies generative and discriminative tasks effectively, paving the way for further advancements in the field.

BiGR : Exploiter les codes latents binaires pour la génération d'images et l'amélioration des capacités de représentation visuelle

BiGR: Harnessing Binary Latent Codes for Image Generation and Improved Visual Representation Capabilities

Résumé

Summary

Support