通过硬绑定和软细化实现区域感知的文本到图像生成

Region-Aware Text-to-Image Generation via Hard Binding and Soft Refinement

November 10, 2024
作者: Zhennan Chen, Yajie Li, Haofan Wang, Zhibo Chen, Zhengkai Jiang, Jun Li, Qian Wang, Jian Yang, Ying Tai
cs.AI

摘要

本文介绍了RAG,一种基于区域感知的文本到图像生成方法,其以区域描述为条件,实现精确的布局组合。区域提示或组合生成使得细粒度空间控制成为可能,在实际应用中备受关注。然而,先前的方法要么引入额外的可训练模块,因此仅适用于特定模型,要么在交叉注意力层中使用注意力掩码对得分图进行操作,导致在区域数量增加时控制强度有限。为了解决这些限制,我们将多区域生成分解为两个子任务,即构建单个区域(区域硬绑定),以确保区域提示得到正确执行,以及对区域进行整体细化(区域软细化),消除视觉边界并增强相邻交互。此外,RAG创新地实现了重绘功能,用户可以在上一次生成的基础上修改特定不满意的区域,同时保持所有其他区域不变,而无需依赖额外的修补模型。我们的方法无需调整即可适用于其他框架,作为对随后属性的增强。定量和定性实验证明,与先前无需调整的方法相比,RAG在属性绑定和对象关系方面表现出优越性能。
English
In this paper, we present RAG, a Regional-Aware text-to-image Generation method conditioned on regional descriptions for precise layout composition. Regional prompting, or compositional generation, which enables fine-grained spatial control, has gained increasing attention for its practicality in real-world applications. However, previous methods either introduce additional trainable modules, thus only applicable to specific models, or manipulate on score maps within cross-attention layers using attention masks, resulting in limited control strength when the number of regions increases. To handle these limitations, we decouple the multi-region generation into two sub-tasks, the construction of individual region (Regional Hard Binding) that ensures the regional prompt is properly executed, and the overall detail refinement (Regional Soft Refinement) over regions that dismiss the visual boundaries and enhance adjacent interactions. Furthermore, RAG novelly makes repainting feasible, where users can modify specific unsatisfied regions in the last generation while keeping all other regions unchanged, without relying on additional inpainting models. Our approach is tuning-free and applicable to other frameworks as an enhancement to the prompt following property. Quantitative and qualitative experiments demonstrate that RAG achieves superior performance over attribute binding and object relationship than previous tuning-free methods.

Summary

AI-Generated Summary

论文概述

该文提出了一种名为RAG的区域感知文本到图像生成方法,通过区域硬绑定和区域软细化实现精确的布局合成。RAG支持图像重新绘制,表现出优越性能,提供了精确的区域控制和灵活的图像重新绘制。

核心贡献

  • 提出了RAG框架,实现了无调整的区域感知文本到图像生成,支持精确的区域控制和图像重新绘制。
  • RAG通过区域硬绑定和区域软细化两个关键阶段,优化了复合生成,特别在处理多区域提示时表现优越。
  • 利用DiT基础网络和注意力机制,结合区域硬绑定和区域软细化组件,实现了高质量图像生成。

研究背景

该研究聚焦于文本到图像合成模型的发展和应用,利用深度学习技术如Transformer模型和扩散模型,探索高分辨率图像合成、无监督数据训练和多模态模型等关键领域。

研究缺口

  • 需要提高高质量图像合成的效率和精度。
  • 缺乏支持复合生成和图像重新绘制的区域感知方法。
  • 需要更好地整合注意力机制和深度融合模型以提升合成效果。

技术挑战

  • 实现精确的区域控制和图像重新绘制。
  • 提高模型的推理效率和整合不同扩散模型。

先前方法

  • 一些模型在高分辨率图像合成方面取得成功。
  • 结构化扩散引导训练无需标注数据的文本到图像合成。
  • 多模态模型在文本到图像合成中表现出色。

方法论

该研究提出了RAG框架,包括区域硬绑定和区域软细化两个关键阶段。RAG通过DiT基础网络和区域感知组件实现精确的区域控制和图像重新绘制。

理论基础

  • RAG基于深度学习技术,利用Transformer模型和扩散模型。
  • 区域硬绑定和区域软细化阶段结合了注意力机制和深度融合模型。

技术架构

  • RAG包括区域硬绑定和区域软细化两个关键组件。
  • 区域硬绑定阶段将输入提示分解为多个区域提示,每个区域具有空间位置。
  • 区域软细化阶段通过交叉注意力层内的区域软细化增强区域之间的交互。

实现细节

  • RAG通过区域硬绑定和区域软细化实现精确的区域控制和图像重新绘制。
  • 区域硬绑定阶段合并各自去噪的区域潜变量到原始图像潜变量中。
  • 区域软细化阶段通过加权重组基础图像潜变量和区域潜变量提高生成质量。

创新点

  • RAG提供了无调整的区域感知文本到图像生成框架。
  • 实现了精确和和谐的区域控制,支持图像重新绘制。
  • 在T2ICompBench基准测试中表现出优越性能。

实验验证

该研究通过实验验证了RAG的优越性能,展示了其在复合生成方面的卓越表现,包括属性绑定和对象关系。

设置

  • 使用大量实验展示RAG在复合生成方面的性能。
  • 实验涉及不同文本到图像方法的比较、用户研究和消融研究。

指标

  • 通过定量和定性实验评估RAG的生成质量和区域控制效果。

结果

  • RAG在属性绑定和对象关系方面表现优于以往的无调整方法。
  • 实验结果显示RAG在复合生成任务中的优越性能。

比较分析

  • RAG相对于其他无调整方法在复合生成方面表现出优越性。
  • 特别在处理复杂的多区域提示时,RAG表现突出。

影响和意义

该研究的关键发现包括提出了RAG框架,支持精确的区域控制和图像重新绘制,具有实际应用意义。

主要发现

  • RAG在复合生成方面表现出色,特别在处理多区域提示时表现优越。
  • RAG支持图像重新绘制,提供了灵活的区域控制。

限制

  • RAG存在推理效率的限制,需要进一步提高。
  • 在某些复杂场景下,RAG的性能仍有待改进。

未来方向

  • 未来工作应集中于提高RAG的推理效率和与其他扩散模型的集成。
  • 探索更多应用场景和改进模型性能的研究方向。

实际意义

  • RAG的区域感知文本到图像生成框架具有广泛的实际应用前景。
  • 可为图像编辑和合成领域提供更灵活和精确的工具。

热门论文

1比特LLM时代:所有大型语言模型均为1.58比特。
The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits

Shuming Ma, Hongyu Wang, Lingxiao Ma, Lei Wang, Wenhui Wang, Shaohan Huang, Li Dong, Ruiping Wang, Jilong Xue, Furu WeiFeb 27, 2024612142

DeepSeek-R1:通过强化学习激励LLMs中的推理能力
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

DeepSeek-AI, Daya Guo, Dejian Yang, Haowei Zhang, Junxiao Song, Ruoyu Zhang, Runxin Xu, Qihao Zhu, Shirong Ma, Peiyi Wang, Xiao Bi, Xiaokang Zhang, Xingkai Yu, Yu Wu, Z. F. Wu, Zhibin Gou, Zhihong Shao, Zhuoshu Li, Ziyi Gao, Aixin Liu, Bing Xue, Bingxuan Wang, Bochao Wu, Bei Feng, Chengda Lu, Chenggang Zhao, Chengqi Deng, Chenyu Zhang, Chong Ruan, Damai Dai, Deli Chen, Dongjie Ji, Erhang Li, Fangyun Lin, Fucong Dai, Fuli Luo, Guangbo Hao, Guanting Chen, Guowei Li, H. Zhang, Han Bao, Hanwei Xu, Haocheng Wang, Honghui Ding, Huajian Xin, Huazuo Gao, Hui Qu, Hui Li, Jianzhong Guo, Jiashi Li, Jiawei Wang, Jingchang Chen, Jingyang Yuan, Junjie Qiu, Junlong Li, J. L. Cai, Jiaqi Ni, Jian Liang, Jin Chen, Kai Dong, Kai Hu, Kaige Gao, Kang Guan, Kexin Huang, Kuai Yu, Lean Wang, Lecong Zhang, Liang Zhao, Litong Wang, Liyue Zhang, Lei Xu, Leyi Xia, Mingchuan Zhang, Minghua Zhang, Minghui Tang, Meng Li, Miaojun Wang, Mingming Li, Ning Tian, Panpan Huang, Peng Zhang, Qiancheng Wang, Qinyu Chen, Qiushi Du, Ruiqi Ge, Ruisong Zhang, Ruizhe Pan, Runji Wang, R. J. Chen, R. L. Jin, Ruyi Chen, Shanghao Lu, Shangyan Zhou, Shanhuang Chen, Shengfeng Ye, Shiyu Wang, Shuiping Yu, Shunfeng Zhou, Shuting Pan, S. S. Li, Shuang Zhou, Shaoqing Wu, Shengfeng Ye, Tao Yun, Tian Pei, Tianyu Sun, T. Wang, Wangding Zeng, Wanjia Zhao, Wen Liu, Wenfeng Liang, Wenjun Gao, Wenqin Yu, Wentao Zhang, W. L. Xiao, Wei An, Xiaodong Liu, Xiaohan Wang, Xiaokang Chen, Xiaotao Nie, Xin Cheng, Xin Liu, Xin Xie, Xingchao Liu, Xinyu Yang, Xinyuan Li, Xuecheng Su, Xuheng Lin, X. Q. Li, Xiangyue Jin, Xiaojin Shen, Xiaosha Chen, Xiaowen Sun, Xiaoxiang Wang, Xinnan Song, Xinyi Zhou, Xianzu Wang, Xinxia Shan, Y. K. Li, Y. Q. Wang, Y. X. Wei, Yang Zhang, Yanhong Xu, Yao Li, Yao Zhao, Yaofeng Sun, Yaohui Wang, Yi Yu, Yichao Zhang, Yifan Shi, Yiliang Xiong, Ying He, Yishi Piao, Yisong Wang, Yixuan Tan, Yiyang Ma, Yiyuan Liu, Yongqiang Guo, Yuan Ou, Yuduan Wang, Yue Gong, Yuheng Zou, Yujia He, Yunfan Xiong, Yuxiang Luo, Yuxiang You, Yuxuan Liu, Yuyang Zhou, Y. X. Zhu, Yanhong Xu, Yanping Huang, Yaohui Li, Yi Zheng, Yuchen Zhu, Yunxian Ma, Ying Tang, Yukun Zha, Yuting Yan, Z. Z. Ren, Zehui Ren, Zhangli Sha, Zhe Fu, Zhean Xu, Zhenda Xie, Zhengyan Zhang, Zhewen Hao, Zhicheng Ma, Zhigang Yan, Zhiyu Wu, Zihui Gu, Zijia Zhu, Zijun Liu, Zilin Li, Ziwei Xie, Ziyang Song, Zizheng Pan, Zhen Huang, Zhipeng Xu, Zhongyu Zhang, Zhen ZhangJan 22, 20253685

Qwen2.5 技术报告
Qwen2.5 Technical Report

Qwen, An Yang, Baosong Yang, Beichen Zhang, Binyuan Hui, Bo Zheng, Bowen Yu, Chengyuan Li, Dayiheng Liu, Fei Huang, Haoran Wei, Huan Lin, Jian Yang, Jianhong Tu, Jianwei Zhang, Jianxin Yang, Jiaxi Yang, Jingren Zhou, Junyang Lin, Kai Dang, Keming Lu, Keqin Bao, Kexin Yang, Le Yu, Mei Li, Mingfeng Xue, Pei Zhang, Qin Zhu, Rui Men, Runji Lin, Tianhao Li, Tingyu Xia, Xingzhang Ren, Xuancheng Ren, Yang Fan, Yang Su, Yichang Zhang, Yu Wan, Yuqiong Liu, Zeyu Cui, Zhenru Zhang, Zihan QiuDec 19, 202436311

PDF366November 18, 2024