IFAdapter: 지면화된 텍스트에서 이미지로의 생성을 위한 인스턴스 특징 제어
IFAdapter: Instance Feature Control for Grounded Text-to-Image Generation
September 12, 2024
저자: Yinwei Wu, Xianpan Zhou, Bing Ma, Xuefeng Su, Kai Ma, Xinchao Wang
cs.AI
초록
텍스트-투-이미지(T2I) 확산 모델은 개별 인스턴스의 시각적으로 매력적인 이미지를 생성하는 데 뛰어나지만, 여러 인스턴스의 특징 생성을 정확하게 위치시키고 제어하는 데 어려움을 겪습니다. 레이아웃-투-이미지(L2I) 작업은 바운딩 박스를 공간 제어 신호로 통합하여 위치 지정 문제에 대응하도록 소개되었지만, 여전히 정확한 인스턴스 특징 생성에는 부족합니다. 이에 대응하여 우리는 인스턴스 특징 생성(IFG) 작업을 제안합니다. 이 작업은 생성된 인스턴스의 위치 정확성과 특징 충실도를 보장하는 데 목표를 두고 있습니다. IFG 작업에 대응하기 위해 우리는 인스턴스 특징 어댑터(IFAdapter)를 소개합니다. IFAdapter는 추가적인 외형 토큰을 통합하고 인스턴스 의미 지도를 활용하여 인스턴스 수준의 특징을 공간 위치와 조정함으로써 특징 묘사를 향상시킵니다. IFAdapter는 플러그 앤 플레이 모듈로 확산 프로세스를 안내하여 다양한 커뮤니티 모델에 적응 가능합니다. 평가를 위해 우리는 IFG 벤치마크를 제공하고 모델이 정확한 위치 및 특징으로 인스턴스를 생성하는 능력을 객관적으로 비교하기 위한 검증 파이프라인을 개발합니다. 실험 결과는 IFAdapter가 양적 및 질적 평가 모두에서 다른 모델보다 우수한 성과를 보여준다는 것을 입증합니다.
English
While Text-to-Image (T2I) diffusion models excel at generating visually
appealing images of individual instances, they struggle to accurately position
and control the features generation of multiple instances. The Layout-to-Image
(L2I) task was introduced to address the positioning challenges by
incorporating bounding boxes as spatial control signals, but it still falls
short in generating precise instance features. In response, we propose the
Instance Feature Generation (IFG) task, which aims to ensure both positional
accuracy and feature fidelity in generated instances. To address the IFG task,
we introduce the Instance Feature Adapter (IFAdapter). The IFAdapter enhances
feature depiction by incorporating additional appearance tokens and utilizing
an Instance Semantic Map to align instance-level features with spatial
locations. The IFAdapter guides the diffusion process as a plug-and-play
module, making it adaptable to various community models. For evaluation, we
contribute an IFG benchmark and develop a verification pipeline to objectively
compare models' abilities to generate instances with accurate positioning and
features. Experimental results demonstrate that IFAdapter outperforms other
models in both quantitative and qualitative evaluations.Summary
AI-Generated Summary