OminiControl: Controllo Minimale e Universale per Diffusion Transformer

OminiControl: Minimal and Universal Control for Diffusion Transformer

November 22, 2024
Autori: Zhenxiong Tan, Songhua Liu, Xingyi Yang, Qiaochu Xue, Xinchao Wang
cs.AI

Abstract

In questo articolo, presentiamo OminiControl, un framework altamente versatile ed efficiente nei parametri che integra condizioni dell'immagine nei modelli pre-addestrati del Diffusion Transformer (DiT). Al suo nucleo, OminiControl sfrutta un meccanismo di riutilizzo dei parametri, consentendo al DiT di codificare le condizioni dell'immagine utilizzando se stesso come robusta struttura portante e di elaborarle con i suoi flessibili processori di attenzione multimodale. A differenza dei metodi esistenti, che dipendono pesantemente da moduli di codificatori aggiuntivi con architetture complesse, OminiControl (1) incorpora in modo efficace ed efficiente le condizioni dell'immagine iniettate con solo ~0,1% di parametri aggiuntivi e (2) affronta una vasta gamma di compiti di condizionamento dell'immagine in modo unificato, inclusa la generazione guidata dal soggetto e condizioni allineate spazialmente come bordi, profondità e altro ancora. Notevolmente, queste capacità sono raggiunte addestrando sulle immagini generate dal DiT stesso, il che è particolarmente vantaggioso per la generazione guidata dal soggetto. Valutazioni approfondite dimostrano che OminiControl supera i modelli basati su UNet e adattati DiT sia nella generazione guidata dal soggetto che in quella condizionata allineata spazialmente. Inoltre, rilasciamo il nostro dataset di addestramento, Subjects200K, una collezione diversificata di oltre 200.000 immagini coerenti con l'identità, insieme a un efficiente processo di sintesi dati per far progredire la ricerca nella generazione coerente con il soggetto.
English
In this paper, we introduce OminiControl, a highly versatile and parameter-efficient framework that integrates image conditions into pre-trained Diffusion Transformer (DiT) models. At its core, OminiControl leverages a parameter reuse mechanism, enabling the DiT to encode image conditions using itself as a powerful backbone and process them with its flexible multi-modal attention processors. Unlike existing methods, which rely heavily on additional encoder modules with complex architectures, OminiControl (1) effectively and efficiently incorporates injected image conditions with only ~0.1% additional parameters, and (2) addresses a wide range of image conditioning tasks in a unified manner, including subject-driven generation and spatially-aligned conditions such as edges, depth, and more. Remarkably, these capabilities are achieved by training on images generated by the DiT itself, which is particularly beneficial for subject-driven generation. Extensive evaluations demonstrate that OminiControl outperforms existing UNet-based and DiT-adapted models in both subject-driven and spatially-aligned conditional generation. Additionally, we release our training dataset, Subjects200K, a diverse collection of over 200,000 identity-consistent images, along with an efficient data synthesis pipeline to advance research in subject-consistent generation.

Summary

AI-Generated Summary

PDF556November 25, 2024