3DIS-FLUX: geração simples e eficiente de múltiplas instâncias com renderização DiT
3DIS-FLUX: simple and efficient multi-instance generation with DiT rendering
January 9, 2025
Autores: Dewei Zhou, Ji Xie, Zongxin Yang, Yi Yang
cs.AI
Resumo
A crescente demanda por saídas controláveis na geração de texto para imagem tem impulsionado avanços significativos na geração multi-instantânea (MIG), permitindo aos usuários definir tanto layouts de instâncias quanto atributos. Atualmente, os métodos de ponta em MIG são principalmente baseados em adaptadores. No entanto, esses métodos exigem o retreinamento de um novo adaptador cada vez que um modelo mais avançado é lançado, resultando em um consumo significativo de recursos. Foi introduzida uma metodologia chamada Síntese de Instâncias Desacoplada Dirigida pela Profundidade (3DIS), que desacopla a MIG em duas fases distintas: 1) construção de cena baseada em profundidade e 2) renderização de detalhes com modelos de controle de profundidade amplamente pré-treinados. O método 3DIS requer treinamento de adaptador apenas durante a fase de construção de cena, permitindo que vários modelos realizem a renderização de detalhes sem necessidade de treinamento. Inicialmente, o 3DIS focou em técnicas de renderização utilizando arquiteturas U-Net como SD1.5, SD2 e SDXL, sem explorar o potencial de modelos recentes baseados em DiT como o FLUX. Neste artigo, apresentamos o 3DIS-FLUX, uma extensão do framework 3DIS que integra o modelo FLUX para capacidades de renderização aprimoradas. Especificamente, empregamos o modelo FLUX.1-Depth-dev para geração de imagem controlada por mapa de profundidade e introduzimos um renderizador de detalhes que manipula a Máscara de Atenção no mecanismo de Atenção Conjunta do FLUX com base em informações de layout. Essa abordagem permite a renderização precisa de atributos detalhados de cada instância. Nossos resultados experimentais indicam que o 3DIS-FLUX, aproveitando o modelo FLUX, supera o método original 3DIS, que utilizava SD2 e SDXL, e ultrapassa os métodos de ponta baseados em adaptadores atuais em termos de desempenho e qualidade de imagem. Página do Projeto: https://limuloo.github.io/3DIS/.
English
The growing demand for controllable outputs in text-to-image generation has
driven significant advancements in multi-instance generation (MIG), enabling
users to define both instance layouts and attributes. Currently, the
state-of-the-art methods in MIG are primarily adapter-based. However, these
methods necessitate retraining a new adapter each time a more advanced model is
released, resulting in significant resource consumption. A methodology named
Depth-Driven Decoupled Instance Synthesis (3DIS) has been introduced, which
decouples MIG into two distinct phases: 1) depth-based scene construction and
2) detail rendering with widely pre-trained depth control models. The 3DIS
method requires adapter training solely during the scene construction phase,
while enabling various models to perform training-free detail rendering.
Initially, 3DIS focused on rendering techniques utilizing U-Net architectures
such as SD1.5, SD2, and SDXL, without exploring the potential of recent
DiT-based models like FLUX. In this paper, we present 3DIS-FLUX, an extension
of the 3DIS framework that integrates the FLUX model for enhanced rendering
capabilities. Specifically, we employ the FLUX.1-Depth-dev model for depth map
controlled image generation and introduce a detail renderer that manipulates
the Attention Mask in FLUX's Joint Attention mechanism based on layout
information. This approach allows for the precise rendering of fine-grained
attributes of each instance. Our experimental results indicate that 3DIS-FLUX,
leveraging the FLUX model, outperforms the original 3DIS method, which utilized
SD2 and SDXL, and surpasses current state-of-the-art adapter-based methods in
terms of both performance and image quality. Project Page:
https://limuloo.github.io/3DIS/.Summary
AI-Generated Summary