ChatPaper.aiChatPaper

ROICtrl: 시각 생성을 위한 인스턴스 제어 강화

ROICtrl: Boosting Instance Control for Visual Generation

November 27, 2024
저자: Yuchao Gu, Yipin Zhou, Yunfan Ye, Yixin Nie, Licheng Yu, Pingchuan Ma, Kevin Qinghong Lin, Mike Zheng Shou
cs.AI

초록

자연어는 종종 여러 인스턴스에 위치 및 속성 정보를 정확하게 연관시키기 어려워서 현재의 텍스트 기반 시각 생성 모델이 주로 몇 가지 주요 인스턴스만 포함하는 간단한 구성물로 제한됩니다. 이 한계를 극복하기 위해 본 연구는 확산 모델을 개선하여 각 인스턴스가 바운딩 박스와 자유 형식의 캡션과 함께 제어되는 지역 인스턴스 제어를 도입합니다. 이 분야의 이전 방법은 일반적으로 암시적 위치 인코딩이나 명시적 주의 마스크를 사용하여 관심 영역(ROIs)을 분리하는데 의존하는데, 이는 부정확한 좌표 주입 또는 대규모 계산 오버헤드로 이어집니다. 물체 탐지에서 ROI-Align에서 영감을 받아 ROI-Unpool이라는 보완적 작업을 소개합니다. ROI-Align과 ROI-Unpool을 함께 사용하면 시각 생성을 위한 고해상도 특성 맵에서 명시적이고 효율적이며 정확한 ROI 조작이 가능해집니다. ROI-Unpool을 기반으로, 사전 학습된 확산 모델에 대한 정확한 지역 인스턴스 제어를 가능하게 하는 ROICtrl을 제안합니다. ROICtrl은 커뮤니티에서 세밀하게 조정된 확산 모델뿐만 아니라 기존의 공간 기반 애드온(ControlNet, T2I-Adapter) 및 임베딩 기반 애드온(IP-Adapter, ED-LoRA)과도 호환되어 다중 인스턴스 생성에 대한 응용을 확장합니다. 실험 결과 ROICtrl이 지역 인스턴스 제어에서 우수한 성능을 달성하면서 계산 비용을 크게 줄였음이 입증되었습니다.
English
Natural language often struggles to accurately associate positional and attribute information with multiple instances, which limits current text-based visual generation models to simpler compositions featuring only a few dominant instances. To address this limitation, this work enhances diffusion models by introducing regional instance control, where each instance is governed by a bounding box paired with a free-form caption. Previous methods in this area typically rely on implicit position encoding or explicit attention masks to separate regions of interest (ROIs), resulting in either inaccurate coordinate injection or large computational overhead. Inspired by ROI-Align in object detection, we introduce a complementary operation called ROI-Unpool. Together, ROI-Align and ROI-Unpool enable explicit, efficient, and accurate ROI manipulation on high-resolution feature maps for visual generation. Building on ROI-Unpool, we propose ROICtrl, an adapter for pretrained diffusion models that enables precise regional instance control. ROICtrl is compatible with community-finetuned diffusion models, as well as with existing spatial-based add-ons (\eg, ControlNet, T2I-Adapter) and embedding-based add-ons (\eg, IP-Adapter, ED-LoRA), extending their applications to multi-instance generation. Experiments show that ROICtrl achieves superior performance in regional instance control while significantly reducing computational costs.

Summary

AI-Generated Summary

PDF712November 28, 2024