BiGR : Exploiter les codes latents binaires pour la génération d'images et l'amélioration des capacités de représentation visuelle

BiGR: Harnessing Binary Latent Codes for Image Generation and Improved Visual Representation Capabilities

October 18, 2024
Auteurs: Shaozhe Hao, Xuantong Liu, Xianbiao Qi, Shihao Zhao, Bojia Zi, Rong Xiao, Kai Han, Kwan-Yee K. Wong
cs.AI

Résumé

Nous présentons BiGR, un nouveau modèle de génération d'images conditionnelles utilisant des codes latents binaires compacts pour l'entraînement génératif, mettant l'accent sur l'amélioration des capacités de génération et de représentation. BiGR est le premier modèle génératif conditionnel qui unifie la génération et la discrimination au sein du même cadre. BiGR présente un tokeniseur binaire, un mécanisme de modélisation masqué et un transcodeur binaire pour la prédiction de codes binaires. De plus, nous introduisons une nouvelle méthode d'échantillonnage ordonnée par entropie pour permettre une génération d'images efficace. Des expériences approfondies valident les performances supérieures de BiGR en termes de qualité de génération, mesurée par FID-50k, et de capacités de représentation, comme en témoigne la précision de la sonde linéaire. De plus, BiGR démontre une généralisation sans apprentissage sur diverses tâches de vision, permettant des applications telles que l'inpainting, l'outpainting, l'édition, l'interpolation et l'enrichissement d'images, sans nécessiter de modifications structurelles. Nos résultats suggèrent que BiGR unifie efficacement les tâches génératives et discriminatives, ouvrant la voie à de nouvelles avancées dans le domaine.
English
We introduce BiGR, a novel conditional image generation model using compact binary latent codes for generative training, focusing on enhancing both generation and representation capabilities. BiGR is the first conditional generative model that unifies generation and discrimination within the same framework. BiGR features a binary tokenizer, a masked modeling mechanism, and a binary transcoder for binary code prediction. Additionally, we introduce a novel entropy-ordered sampling method to enable efficient image generation. Extensive experiments validate BiGR's superior performance in generation quality, as measured by FID-50k, and representation capabilities, as evidenced by linear-probe accuracy. Moreover, BiGR showcases zero-shot generalization across various vision tasks, enabling applications such as image inpainting, outpainting, editing, interpolation, and enrichment, without the need for structural modifications. Our findings suggest that BiGR unifies generative and discriminative tasks effectively, paving the way for further advancements in the field.

Summary

AI-Generated Summary

Aperçu de l'Article

Ce document présente le modèle BiGR, un générateur d'images conditionnelles utilisant des codes binaires compacts pour l'entraînement génératif. BiGR se distingue par son unification de la génération et de la discrimination, offrant des performances supérieures en termes de qualité de génération et de capacités de représentation.

Contribution Principale

  • BiGR unifie génération et discrimination dans un cadre unique.
  • Introduit un tokenizer binaire, un mécanisme de modélisation masqué et un transcodeur binaire.
  • Utilise une méthode d'échantillonnage ordonnée par entropie pour une génération efficace.
  • Permet la généralisation sans apprentissage sur diverses tâches de vision.

Contexte de Recherche

  • Positionné comme le premier modèle génératif conditionnel unifiant génération et discrimination.
  • Vise à améliorer la qualité de génération et les capacités de représentation.

Mots-Clés

Modèle BiGR, Génération d'Images Conditionnelles, Codes Binaires, Modélisation Masquée, Transcodeur Binaire

Contexte

Ce papier se situe dans le domaine de la génération d'images conditionnelles en utilisant des codes binaires compacts. Il comble le manque de modèles unifiant génération et discrimination, en proposant une approche novatrice pour améliorer la qualité de génération et les capacités de représentation.

Lacunes de Recherche

  • Absence de modèles unifiant génération et discrimination.
  • Besoin de méthodes efficaces pour la génération d'images de haute qualité.

Défis Techniques

  • Génération efficace d'images à partir de codes binaires compacts.
  • Amélioration des capacités de représentation sans compromettre la qualité de génération.

Approches Antérieures

  • Modèles séparés pour la génération et la discrimination.
  • Limitations en termes de qualité de génération et de représentation.

Méthodologie

La méthodologie de l'étude repose sur l'utilisation d'un tokenizer binaire, d'un transcodeur binaire et d'une modélisation masquée pour la génération d'images conditionnelles. Le modèle BiGR est entraîné en utilisant une approche de modélisation masquée et une méthode d'échantillonnage ordonnée par entropie pour une génération efficace.

Fondation Théorique

  • Utilisation d'un modèle de langage avec un tokenizer binaire.
  • Transformation des sorties en codes binaires via un transcodeur binaire.

Architecture Technique

  • Tokenizer binaire, transformateur à décodeur uniquement, transcodeur binaire.
  • Approche de modélisation masquée pour la génération d'images.

Détails de Mise en Œuvre

  • Utilisation d'un autoencodeur binaire pour la tokenisation.
  • Entraînement conjoint avec un réseau de débruitage pour optimisation.

Points d'Innovation

  • Génération efficace d'images à partir de codes binaires.
  • Capacités de représentation significativement améliorées.

Validation Expérimentale

L'expérimentation valide l'efficacité du modèle BiGR en termes de génération d'images de haute qualité et de capacités de représentation améliorées. Les configurations, les métriques et les résultats sont analysés pour démontrer les avantages du modèle.

Configuration

  • Modèles BiGR-L, BiGR-XL et BiGR-XXL avec leurs paramètres spécifiques.
  • Utilisation de méthodes déterministes et non déterministes pour la génération de codes binaires.

Métriques

  • Comparaison des performances avec FID, IS, précision et rappel.
  • Évaluation des performances discriminatives des modèles.

Résultats

  • Génération d'images de haute qualité en 512x512.
  • Supériorité de BiGR par rapport à d'autres modèles de pointe.

Analyse Comparative

  • Comparaison avec LlamaGen et d'autres modèles de génération conditionnelle.
  • Évaluation des performances générales et discriminatives.

Impact et Implications

Le modèle BiGR présente des résultats significatifs en termes de génération d'images de qualité et de capacités de représentation améliorées. Malgré ses avantages, des limitations sont identifiées, ouvrant la voie à des recherches futures et des applications pratiques.

Principaux Résultats

  • Performances supérieures en génération d'images et en représentation.
  • Potentiel d'adaptation à diverses applications de vision par ordinateur.

Limitations

  • Contraintes liées à la stratégie d'échantillonnage et à la longueur fixe de séquence.
  • Impact des hyperparamètres sur les performances générales.

Orientations Futures

  • Exploration de stratégies d'échantillonnage alternatives.
  • Adaptation du modèle pour des applications spécifiques en vision par ordinateur.

Signification Pratique

  • Utilisation responsable du modèle BiGR pour diverses tâches de vision par ordinateur.
  • Potentiel d'application dans l'inpainting, l'outpainting, l'édition et l'interpolation d'images.

Articles en Vedette

DeepSeek-R1 : Encourager la capacité de raisonnement dans les LLMs via l'apprentissage par renforcement
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

DeepSeek-AI, Daya Guo, Dejian Yang, Haowei Zhang, Junxiao Song, Ruoyu Zhang, Runxin Xu, Qihao Zhu, Shirong Ma, Peiyi Wang, Xiao Bi, Xiaokang Zhang, Xingkai Yu, Yu Wu, Z. F. Wu, Zhibin Gou, Zhihong Shao, Zhuoshu Li, Ziyi Gao, Aixin Liu, Bing Xue, Bingxuan Wang, Bochao Wu, Bei Feng, Chengda Lu, Chenggang Zhao, Chengqi Deng, Chenyu Zhang, Chong Ruan, Damai Dai, Deli Chen, Dongjie Ji, Erhang Li, Fangyun Lin, Fucong Dai, Fuli Luo, Guangbo Hao, Guanting Chen, Guowei Li, H. Zhang, Han Bao, Hanwei Xu, Haocheng Wang, Honghui Ding, Huajian Xin, Huazuo Gao, Hui Qu, Hui Li, Jianzhong Guo, Jiashi Li, Jiawei Wang, Jingchang Chen, Jingyang Yuan, Junjie Qiu, Junlong Li, J. L. Cai, Jiaqi Ni, Jian Liang, Jin Chen, Kai Dong, Kai Hu, Kaige Gao, Kang Guan, Kexin Huang, Kuai Yu, Lean Wang, Lecong Zhang, Liang Zhao, Litong Wang, Liyue Zhang, Lei Xu, Leyi Xia, Mingchuan Zhang, Minghua Zhang, Minghui Tang, Meng Li, Miaojun Wang, Mingming Li, Ning Tian, Panpan Huang, Peng Zhang, Qiancheng Wang, Qinyu Chen, Qiushi Du, Ruiqi Ge, Ruisong Zhang, Ruizhe Pan, Runji Wang, R. J. Chen, R. L. Jin, Ruyi Chen, Shanghao Lu, Shangyan Zhou, Shanhuang Chen, Shengfeng Ye, Shiyu Wang, Shuiping Yu, Shunfeng Zhou, Shuting Pan, S. S. Li, Shuang Zhou, Shaoqing Wu, Shengfeng Ye, Tao Yun, Tian Pei, Tianyu Sun, T. Wang, Wangding Zeng, Wanjia Zhao, Wen Liu, Wenfeng Liang, Wenjun Gao, Wenqin Yu, Wentao Zhang, W. L. Xiao, Wei An, Xiaodong Liu, Xiaohan Wang, Xiaokang Chen, Xiaotao Nie, Xin Cheng, Xin Liu, Xin Xie, Xingchao Liu, Xinyu Yang, Xinyuan Li, Xuecheng Su, Xuheng Lin, X. Q. Li, Xiangyue Jin, Xiaojin Shen, Xiaosha Chen, Xiaowen Sun, Xiaoxiang Wang, Xinnan Song, Xinyi Zhou, Xianzu Wang, Xinxia Shan, Y. K. Li, Y. Q. Wang, Y. X. Wei, Yang Zhang, Yanhong Xu, Yao Li, Yao Zhao, Yaofeng Sun, Yaohui Wang, Yi Yu, Yichao Zhang, Yifan Shi, Yiliang Xiong, Ying He, Yishi Piao, Yisong Wang, Yixuan Tan, Yiyang Ma, Yiyuan Liu, Yongqiang Guo, Yuan Ou, Yuduan Wang, Yue Gong, Yuheng Zou, Yujia He, Yunfan Xiong, Yuxiang Luo, Yuxiang You, Yuxuan Liu, Yuyang Zhou, Y. X. Zhu, Yanhong Xu, Yanping Huang, Yaohui Li, Yi Zheng, Yuchen Zhu, Yunxian Ma, Ying Tang, Yukun Zha, Yuting Yan, Z. Z. Ren, Zehui Ren, Zhangli Sha, Zhe Fu, Zhean Xu, Zhenda Xie, Zhengyan Zhang, Zhewen Hao, Zhicheng Ma, Zhigang Yan, Zhiyu Wu, Zihui Gu, Zijia Zhu, Zijun Liu, Zilin Li, Ziwei Xie, Ziyang Song, Zizheng Pan, Zhen Huang, Zhipeng Xu, Zhongyu Zhang, Zhen ZhangJan 22, 20253685

Rapport technique de Qwen2.5
Qwen2.5 Technical Report

Qwen, An Yang, Baosong Yang, Beichen Zhang, Binyuan Hui, Bo Zheng, Bowen Yu, Chengyuan Li, Dayiheng Liu, Fei Huang, Haoran Wei, Huan Lin, Jian Yang, Jianhong Tu, Jianwei Zhang, Jianxin Yang, Jiaxi Yang, Jingren Zhou, Junyang Lin, Kai Dang, Keming Lu, Keqin Bao, Kexin Yang, Le Yu, Mei Li, Mingfeng Xue, Pei Zhang, Qin Zhu, Rui Men, Runji Lin, Tianhao Li, Tingyu Xia, Xingzhang Ren, Xuancheng Ren, Yang Fan, Yang Su, Yichang Zhang, Yu Wan, Yuqiong Liu, Zeyu Cui, Zhenru Zhang, Zihan QiuDec 19, 202436311

MiniMax-01 : Mise à l'échelle des modèles de base avec Attention Éclair.
MiniMax-01: Scaling Foundation Models with Lightning Attention

MiniMax, Aonian Li, Bangwei Gong, Bo Yang, Boji Shan, Chang Liu, Cheng Zhu, Chunhao Zhang, Congchao Guo, Da Chen, Dong Li, Enwei Jiao, Gengxin Li, Guojun Zhang, Haohai Sun, Houze Dong, Jiadai Zhu, Jiaqi Zhuang, Jiayuan Song, Jin Zhu, Jingtao Han, Jingyang Li, Junbin Xie, Junhao Xu, Junjie Yan, Kaishun Zhang, Kecheng Xiao, Kexi Kang, Le Han, Leyang Wang, Lianfei Yu, Liheng Feng, Lin Zheng, Linbo Chai, Long Xing, Meizhi Ju, Mingyuan Chi, Mozhi Zhang, Peikai Huang, Pengcheng Niu, Pengfei Li, Pengyu Zhao, Qi Yang, Qidi Xu, Qiexiang Wang, Qin Wang, Qiuhui Li, Ruitao Leng, Shengmin Shi, Shuqi Yu, Sichen Li, Songquan Zhu, Tao Huang, Tianrun Liang, Weigao Sun, Weixuan Sun, Weiyu Cheng, Wenkai Li, Xiangjun Song, Xiao Su, Xiaodong Han, Xinjie Zhang, Xinzhu Hou, Xu Min, Xun Zou, Xuyang Shen, Yan Gong, Yingjie Zhu, Yipeng Zhou, Yiran Zhong, Yongyi Hu, Yuanxiang Fan, Yue Yu, Yufeng Yang, Yuhao Li, Yunan Huang, Yunji Li, Yunpeng Huang, Yunzhi Xu, Yuxin Mao, Zehan Li, Zekang Li, Zewei Tao, Zewen Ying, Zhaoyang Cong, Zhen Qin, Zhenhua Fan, Zhihang Yu, Zhuo Jiang, Zijia WuJan 14, 20252836

PDF82November 16, 2024