Génération de scènes compositionnelles via la génération d'instances RGBA image-texte.

Generating Compositional Scenes via Text-to-image RGBA Instance Generation

November 16, 2024
Auteurs: Alessandro Fontanella, Petru-Daniel Tudosiu, Yongxin Yang, Shifeng Zhang, Sarah Parisot
cs.AI

Résumé

Les modèles génératifs de diffusion texte-vers-image peuvent produire des images de haute qualité au prix d'une ingénierie de prompt fastidieuse. La contrôlabilité peut être améliorée en introduisant une condition de mise en page, cependant les méthodes existantes manquent de capacité d'édition de mise en page et de contrôle fin sur les attributs des objets. Le concept de génération multi-couches présente un grand potentiel pour résoudre ces limitations, cependant la génération d'instances d'images en parallèle à la composition de scènes limite le contrôle sur les attributs fins des objets, le positionnement relatif dans l'espace 3D et les capacités de manipulation de scènes. Dans ce travail, nous proposons un nouveau paradigme de génération multi-étapes conçu pour un contrôle fin, la flexibilité et l'interactivité. Pour garantir le contrôle sur les attributs des instances, nous concevons un nouveau paradigme d'entraînement pour adapter un modèle de diffusion afin de générer des composants de scène isolés sous forme d'images RGBA avec des informations de transparence. Pour construire des images complexes, nous utilisons ces instances pré-générées et introduisons un processus de génération composite multi-couches qui assemble de manière fluide les composants dans des scènes réalistes. Nos expériences montrent que notre modèle de diffusion RGBA est capable de générer des instances diverses et de haute qualité avec un contrôle précis sur les attributs des objets. À travers la composition multi-couches, nous démontrons que notre approche permet de construire et de manipuler des images à partir de prompts très complexes avec un contrôle fin sur l'apparence et l'emplacement des objets, offrant un degré de contrôle plus élevé que les méthodes concurrentes.
English
Text-to-image diffusion generative models can generate high quality images at the cost of tedious prompt engineering. Controllability can be improved by introducing layout conditioning, however existing methods lack layout editing ability and fine-grained control over object attributes. The concept of multi-layer generation holds great potential to address these limitations, however generating image instances concurrently to scene composition limits control over fine-grained object attributes, relative positioning in 3D space and scene manipulation abilities. In this work, we propose a novel multi-stage generation paradigm that is designed for fine-grained control, flexibility and interactivity. To ensure control over instance attributes, we devise a novel training paradigm to adapt a diffusion model to generate isolated scene components as RGBA images with transparency information. To build complex images, we employ these pre-generated instances and introduce a multi-layer composite generation process that smoothly assembles components in realistic scenes. Our experiments show that our RGBA diffusion model is capable of generating diverse and high quality instances with precise control over object attributes. Through multi-layer composition, we demonstrate that our approach allows to build and manipulate images from highly complex prompts with fine-grained control over object appearance and location, granting a higher degree of control than competing methods.

Summary

AI-Generated Summary

Paper Overview

Ce document propose un nouveau paradigme de génération multi-étapes pour un contrôle fin, la flexibilité et l'interactivité des scènes en utilisant un modèle de diffusion RGBA. Les auteurs mettent en avant une approche novatrice pour la génération d'images complexes avec un contrôle précis des attributs des objets et de la disposition des scènes, dépassant les méthodes existantes.

Core Contribution

  • Introduction d'un paradigme de génération multi-étapes pour un contrôle fin des scènes.
  • Développement d'un modèle de diffusion RGBA pour générer des images isolées avec transparence.
  • Processus de génération composite multi-couches pour assembler des scènes réalistes.
  • Formation novatrice pour adapter un modèle de diffusion à générer des images RGBA.
  • Capacité à générer des objets divers et à contrôler précisément leurs attributs.

Research Context

Ce travail s'inscrit dans le domaine de la génération de scènes complexes texte-vers-image en mettant l'accent sur le contrôle fin des attributs des objets et de la disposition des scènes. Il vise à combler les lacunes des approches existantes en proposant une méthode novatrice de génération multi-étapes.

Keywords

Génération multi-étapes, modèle de diffusion RGBA, contrôle fin des attributs, composition de scènes, génération texte-vers-image.

Background

Ce document se concentre sur les défis techniques des modèles générateurs de diffusion texte-vers-image, soulignant la nécessité d'améliorer le contrôle des attributs des objets et de la mise en page des scènes. Les approches existantes manquent de capacité d'édition de la mise en page et de contrôle fin des objets, motivant ainsi le développement d'un nouveau paradigme de génération multi-étapes.

Research Gap

  • Manque de capacité d'édition de la mise en page dans les méthodes existantes.
  • Besoin d'un contrôle fin des attributs des objets dans les modèles générateurs.
  • Limitations des approches de génération multi-couches existantes.

Technical Challenges

  • Ingénierie fastidieuse des instructions dans les modèles générateurs texte-vers-image.
  • Limite du contrôle sur les attributs des objets avec la génération multi-couches.
  • Besoin d'améliorer la contrôlabilité et l'interactivité des scènes.

Prior Approaches

  • Méthodes existantes manquant de capacité d'édition de la mise en page.
  • Limitations des approches de génération multi-couches pour le contrôle fin des attributs.
  • Besoin d'une nouvelle approche pour un contrôle précis des objets et de la disposition des scènes.

Methodology

La méthodologie de ce travail repose sur l'utilisation d'un modèle de diffusion RGBA pour générer des images isolées avec transparence, puis sur un processus de génération composite multi-couches pour assembler des scènes réalistes. Une formation novatrice est détaillée pour adapter le modèle de diffusion à générer des images RGBA, permettant un contrôle précis des attributs des objets et de la mise en page des scènes.

Theoretical Foundation

  • Utilisation d'un modèle de diffusion RGBA pour générer des images avec transparence.
  • Processus de génération composite multi-couches pour assembler des scènes réalistes.

Technical Architecture

  • Modèle de diffusion RGBA pour la génération d'images isolées.
  • Processus de génération composite multi-couches pour l'assemblage de scènes.

Implementation Details

  • Processus de formation novateur pour adapter le modèle de diffusion à générer des images RGBA.
  • Utilisation d'instances pré-générées pour la génération composite multi-couches.

Innovation Points

  • Contrôle précis des attributs des objets et de la disposition des scènes.
  • Capacité à générer des objets divers et à contrôler leurs attributs.
  • Méthode de composition de scène multi-couches pour manipuler des scènes complexes.

Experimental Validation

L'expérimentation valide l'approche proposée en utilisant un modèle de diffusion RGBA pour générer des images isolées avec transparence, puis en les assemblant dans des scènes réalistes. Les résultats montrent une amélioration significative par rapport aux méthodes baselines en termes de qualité d'instance générée, de masques alpha et de similarité entre les images et les descriptions textuelles.

Setup

  • Utilisation d'un VAE RGBA pour générer des instances avec transparence.
  • Entraînement sur des ensembles de données d'instances de diverses scènes, styles et catégories d'objets.
  • Utilisation d'une approche de mélange de bruit multicouche pour la composition de scènes.

Metrics

  • Évaluation de la qualité des images générées, des masques alpha et de la similarité avec les descriptions textuelles.
  • Comparaison avec des méthodes baselines en termes de contrôle des attributs des objets et de la disposition des scènes.

Results

  • Amélioration significative de la qualité des instances générées par rapport aux méthodes baselines.
  • Contrôle précis des attributs des objets et de la disposition des scènes.
  • Supériorité de l'approche proposée en termes de génération RGBA et de composition de scènes.

Comparative Analysis

  • Comparaison avec des approches existantes telles que MultiDiffusion et Instance Diffusion.
  • Évaluation de la capacité à assigner avec précision les attributs des objets et à suivre la disposition requise.

Impact and Implications

L'approche proposée présente des contributions significatives en termes de contrôle fin, de flexibilité et d'interactivité des scènes, dépassant les méthodes existantes. Malgré ses avantages, des limitations subsistent, mais des pistes de recherche futures sont identifiées pour améliorer la génération conditionnée RGBA et les méthodes d'édition RGBA.

Key Findings

  • Contrôle précis des attributs des objets et de la disposition des scènes.
  • Supériorité de l'approche proposée par rapport aux méthodes baselines.
  • Capacité à manipuler des scènes complexes avec des objets superposés.

Limitations

  • Génération indépendante des instances rendant l'assemblage cohérent des scènes plus difficile.

Future Directions

  • Exploration de la génération conditionnée RGBA pour des scènes cohérentes.
  • Développement de méthodes d'édition RGBA pour un meilleur contrôle du contenu des scènes.

Practical Significance

  • Application potentielle dans la création d'images complexes avec un contrôle précis.
  • Possibilité d'améliorer les méthodes d'édition d'images pour une manipulation avancée des scènes.

This mind map provides a structured and detailed overview of the academic paper, capturing its core contributions, methodology, experimental validation, and impact and implications.

Articles en Vedette

DeepSeek-R1 : Encourager la capacité de raisonnement dans les LLMs via l'apprentissage par renforcement
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

DeepSeek-AI, Daya Guo, Dejian Yang, Haowei Zhang, Junxiao Song, Ruoyu Zhang, Runxin Xu, Qihao Zhu, Shirong Ma, Peiyi Wang, Xiao Bi, Xiaokang Zhang, Xingkai Yu, Yu Wu, Z. F. Wu, Zhibin Gou, Zhihong Shao, Zhuoshu Li, Ziyi Gao, Aixin Liu, Bing Xue, Bingxuan Wang, Bochao Wu, Bei Feng, Chengda Lu, Chenggang Zhao, Chengqi Deng, Chenyu Zhang, Chong Ruan, Damai Dai, Deli Chen, Dongjie Ji, Erhang Li, Fangyun Lin, Fucong Dai, Fuli Luo, Guangbo Hao, Guanting Chen, Guowei Li, H. Zhang, Han Bao, Hanwei Xu, Haocheng Wang, Honghui Ding, Huajian Xin, Huazuo Gao, Hui Qu, Hui Li, Jianzhong Guo, Jiashi Li, Jiawei Wang, Jingchang Chen, Jingyang Yuan, Junjie Qiu, Junlong Li, J. L. Cai, Jiaqi Ni, Jian Liang, Jin Chen, Kai Dong, Kai Hu, Kaige Gao, Kang Guan, Kexin Huang, Kuai Yu, Lean Wang, Lecong Zhang, Liang Zhao, Litong Wang, Liyue Zhang, Lei Xu, Leyi Xia, Mingchuan Zhang, Minghua Zhang, Minghui Tang, Meng Li, Miaojun Wang, Mingming Li, Ning Tian, Panpan Huang, Peng Zhang, Qiancheng Wang, Qinyu Chen, Qiushi Du, Ruiqi Ge, Ruisong Zhang, Ruizhe Pan, Runji Wang, R. J. Chen, R. L. Jin, Ruyi Chen, Shanghao Lu, Shangyan Zhou, Shanhuang Chen, Shengfeng Ye, Shiyu Wang, Shuiping Yu, Shunfeng Zhou, Shuting Pan, S. S. Li, Shuang Zhou, Shaoqing Wu, Shengfeng Ye, Tao Yun, Tian Pei, Tianyu Sun, T. Wang, Wangding Zeng, Wanjia Zhao, Wen Liu, Wenfeng Liang, Wenjun Gao, Wenqin Yu, Wentao Zhang, W. L. Xiao, Wei An, Xiaodong Liu, Xiaohan Wang, Xiaokang Chen, Xiaotao Nie, Xin Cheng, Xin Liu, Xin Xie, Xingchao Liu, Xinyu Yang, Xinyuan Li, Xuecheng Su, Xuheng Lin, X. Q. Li, Xiangyue Jin, Xiaojin Shen, Xiaosha Chen, Xiaowen Sun, Xiaoxiang Wang, Xinnan Song, Xinyi Zhou, Xianzu Wang, Xinxia Shan, Y. K. Li, Y. Q. Wang, Y. X. Wei, Yang Zhang, Yanhong Xu, Yao Li, Yao Zhao, Yaofeng Sun, Yaohui Wang, Yi Yu, Yichao Zhang, Yifan Shi, Yiliang Xiong, Ying He, Yishi Piao, Yisong Wang, Yixuan Tan, Yiyang Ma, Yiyuan Liu, Yongqiang Guo, Yuan Ou, Yuduan Wang, Yue Gong, Yuheng Zou, Yujia He, Yunfan Xiong, Yuxiang Luo, Yuxiang You, Yuxuan Liu, Yuyang Zhou, Y. X. Zhu, Yanhong Xu, Yanping Huang, Yaohui Li, Yi Zheng, Yuchen Zhu, Yunxian Ma, Ying Tang, Yukun Zha, Yuting Yan, Z. Z. Ren, Zehui Ren, Zhangli Sha, Zhe Fu, Zhean Xu, Zhenda Xie, Zhengyan Zhang, Zhewen Hao, Zhicheng Ma, Zhigang Yan, Zhiyu Wu, Zihui Gu, Zijia Zhu, Zijun Liu, Zilin Li, Ziwei Xie, Ziyang Song, Zizheng Pan, Zhen Huang, Zhipeng Xu, Zhongyu Zhang, Zhen ZhangJan 22, 20253685

Rapport technique de Qwen2.5
Qwen2.5 Technical Report

Qwen, An Yang, Baosong Yang, Beichen Zhang, Binyuan Hui, Bo Zheng, Bowen Yu, Chengyuan Li, Dayiheng Liu, Fei Huang, Haoran Wei, Huan Lin, Jian Yang, Jianhong Tu, Jianwei Zhang, Jianxin Yang, Jiaxi Yang, Jingren Zhou, Junyang Lin, Kai Dang, Keming Lu, Keqin Bao, Kexin Yang, Le Yu, Mei Li, Mingfeng Xue, Pei Zhang, Qin Zhu, Rui Men, Runji Lin, Tianhao Li, Tingyu Xia, Xingzhang Ren, Xuancheng Ren, Yang Fan, Yang Su, Yichang Zhang, Yu Wan, Yuqiong Liu, Zeyu Cui, Zhenru Zhang, Zihan QiuDec 19, 202436311

MiniMax-01 : Mise à l'échelle des modèles de base avec Attention Éclair.
MiniMax-01: Scaling Foundation Models with Lightning Attention

MiniMax, Aonian Li, Bangwei Gong, Bo Yang, Boji Shan, Chang Liu, Cheng Zhu, Chunhao Zhang, Congchao Guo, Da Chen, Dong Li, Enwei Jiao, Gengxin Li, Guojun Zhang, Haohai Sun, Houze Dong, Jiadai Zhu, Jiaqi Zhuang, Jiayuan Song, Jin Zhu, Jingtao Han, Jingyang Li, Junbin Xie, Junhao Xu, Junjie Yan, Kaishun Zhang, Kecheng Xiao, Kexi Kang, Le Han, Leyang Wang, Lianfei Yu, Liheng Feng, Lin Zheng, Linbo Chai, Long Xing, Meizhi Ju, Mingyuan Chi, Mozhi Zhang, Peikai Huang, Pengcheng Niu, Pengfei Li, Pengyu Zhao, Qi Yang, Qidi Xu, Qiexiang Wang, Qin Wang, Qiuhui Li, Ruitao Leng, Shengmin Shi, Shuqi Yu, Sichen Li, Songquan Zhu, Tao Huang, Tianrun Liang, Weigao Sun, Weixuan Sun, Weiyu Cheng, Wenkai Li, Xiangjun Song, Xiao Su, Xiaodong Han, Xinjie Zhang, Xinzhu Hou, Xu Min, Xun Zou, Xuyang Shen, Yan Gong, Yingjie Zhu, Yipeng Zhou, Yiran Zhong, Yongyi Hu, Yuanxiang Fan, Yue Yu, Yufeng Yang, Yuhao Li, Yunan Huang, Yunji Li, Yunpeng Huang, Yunzhi Xu, Yuxin Mao, Zehan Li, Zekang Li, Zewei Tao, Zewen Ying, Zhaoyang Cong, Zhen Qin, Zhenhua Fan, Zhihang Yu, Zhuo Jiang, Zijia WuJan 14, 20252836

PDF42November 22, 2024