3DIS-FLUX: DiT レンダリングを用いたシンプルかつ効率的なマルチインスタンス生成
3DIS-FLUX: simple and efficient multi-instance generation with DiT rendering
January 9, 2025
著者: Dewei Zhou, Ji Xie, Zongxin Yang, Yi Yang
cs.AI
要旨
テキストから画像生成における制御可能な出力の需要が高まっており、マルチインスタンス生成(MIG)の重要な進歩がもたらされています。これにより、ユーザーはインスタンスのレイアウトと属性の両方を定義できるようになりました。現在、MIGにおける最先端の手法は主にアダプターベースです。ただし、これらの手法は、より高度なモデルがリリースされるたびに新しいアダプターを再トレーニングする必要があり、膨大なリソースを消費します。Depth-Driven Decoupled Instance Synthesis(3DIS)という手法が導入され、MIGを2つの異なるフェーズ、つまり1)深度ベースのシーン構築と2)幅広く事前トレーニングされた深度制御モデルによる詳細なレンダリングに分割します。3DIS手法では、シーン構築フェーズ中にアダプターのトレーニングのみが必要であり、さまざまなモデルにトレーニングフリーの詳細なレンダリングを可能にします。最初は、3DISはSD1.5、SD2、SDXLなどのU-Netアーキテクチャを利用したレンダリング技術に焦点を当てており、最近のDiTベースのモデルであるFLUXの可能性を探っていませんでした。本論文では、FLUXモデルを統合した3DISフレームワークの拡張である3DIS-FLUXを提案します。具体的には、深度マップ制御画像生成にFLUX.1-Depth-devモデルを使用し、FLUXの共同注意メカニズム内のAttention Maskをレイアウト情報に基づいて操作する詳細なレンダラーを導入します。このアプローチにより、各インスタンスの微細な属性を正確にレンダリングできます。実験結果は、FLUXモデルを活用した3DIS-FLUXが、SD2やSDXLを使用した元の3DIS手法を上回り、現在の最先端のアダプターベースの手法を性能と画質の両面で凌駕していることを示しています。プロジェクトページ:https://limuloo.github.io/3DIS/。
English
The growing demand for controllable outputs in text-to-image generation has
driven significant advancements in multi-instance generation (MIG), enabling
users to define both instance layouts and attributes. Currently, the
state-of-the-art methods in MIG are primarily adapter-based. However, these
methods necessitate retraining a new adapter each time a more advanced model is
released, resulting in significant resource consumption. A methodology named
Depth-Driven Decoupled Instance Synthesis (3DIS) has been introduced, which
decouples MIG into two distinct phases: 1) depth-based scene construction and
2) detail rendering with widely pre-trained depth control models. The 3DIS
method requires adapter training solely during the scene construction phase,
while enabling various models to perform training-free detail rendering.
Initially, 3DIS focused on rendering techniques utilizing U-Net architectures
such as SD1.5, SD2, and SDXL, without exploring the potential of recent
DiT-based models like FLUX. In this paper, we present 3DIS-FLUX, an extension
of the 3DIS framework that integrates the FLUX model for enhanced rendering
capabilities. Specifically, we employ the FLUX.1-Depth-dev model for depth map
controlled image generation and introduce a detail renderer that manipulates
the Attention Mask in FLUX's Joint Attention mechanism based on layout
information. This approach allows for the precise rendering of fine-grained
attributes of each instance. Our experimental results indicate that 3DIS-FLUX,
leveraging the FLUX model, outperforms the original 3DIS method, which utilized
SD2 and SDXL, and surpasses current state-of-the-art adapter-based methods in
terms of both performance and image quality. Project Page:
https://limuloo.github.io/3DIS/.Summary
AI-Generated Summary