ROICtrl: Potenziamento del Controllo delle Istanze per la Generazione Visuale
ROICtrl: Boosting Instance Control for Visual Generation
November 27, 2024
Autori: Yuchao Gu, Yipin Zhou, Yunfan Ye, Yixin Nie, Licheng Yu, Pingchuan Ma, Kevin Qinghong Lin, Mike Zheng Shou
cs.AI
Abstract
Il linguaggio naturale spesso fatica ad associare in modo accurato informazioni posizionali e attributive con molteplici istanze, limitando i modelli di generazione visiva basati su testo attuali a composizioni più semplici che presentano solo poche istanze dominanti. Per affrontare questa limitazione, questo lavoro potenzia i modelli di diffusione introducendo il controllo dell'istanza regionale, in cui ciascuna istanza è regolata da un box di delimitazione abbinato a una didascalia in forma libera. I metodi precedenti in questo ambito solitamente si basano su codifica implicita della posizione o maschere di attenzione esplicite per separare le regioni di interesse (ROI), con conseguente iniezione di coordinate inaccurata o elevati costi computazionali. Ispirandoci a ROI-Align nella rilevazione degli oggetti, introduciamo un'operazione complementare chiamata ROI-Unpool. Insieme, ROI-Align e ROI-Unpool consentono una manipolazione esplicita, efficiente e precisa delle ROI su mappe delle caratteristiche ad alta risoluzione per la generazione visiva. Basandoci su ROI-Unpool, proponiamo ROICtrl, un adattatore per modelli di diffusione preaddestrati che consente un preciso controllo dell'istanza regionale. ROICtrl è compatibile con modelli di diffusione sintonizzati dalla comunità, nonché con estensioni basate su spazialità esistenti (ad es., ControlNet, T2I-Adapter) ed estensioni basate su embedding (ad es., IP-Adapter, ED-LoRA), estendendone le applicazioni alla generazione multi-istanza. Gli esperimenti mostrano che ROICtrl raggiunge prestazioni superiori nel controllo dell'istanza regionale riducendo significativamente i costi computazionali.
English
Natural language often struggles to accurately associate positional and
attribute information with multiple instances, which limits current text-based
visual generation models to simpler compositions featuring only a few dominant
instances. To address this limitation, this work enhances diffusion models by
introducing regional instance control, where each instance is governed by a
bounding box paired with a free-form caption. Previous methods in this area
typically rely on implicit position encoding or explicit attention masks to
separate regions of interest (ROIs), resulting in either inaccurate coordinate
injection or large computational overhead. Inspired by ROI-Align in object
detection, we introduce a complementary operation called ROI-Unpool. Together,
ROI-Align and ROI-Unpool enable explicit, efficient, and accurate ROI
manipulation on high-resolution feature maps for visual generation. Building on
ROI-Unpool, we propose ROICtrl, an adapter for pretrained diffusion models that
enables precise regional instance control. ROICtrl is compatible with
community-finetuned diffusion models, as well as with existing spatial-based
add-ons (\eg, ControlNet, T2I-Adapter) and embedding-based add-ons (\eg,
IP-Adapter, ED-LoRA), extending their applications to multi-instance
generation. Experiments show that ROICtrl achieves superior performance in
regional instance control while significantly reducing computational costs.Summary
AI-Generated Summary