ChatPaper.aiChatPaper

텍스트에서 이미지로의 맞춤화를 위한 다중 이미지 합성 데이터 생성

Generating Multi-Image Synthetic Data for Text-to-Image Customization

February 3, 2025
저자: Nupur Kumari, Xi Yin, Jun-Yan Zhu, Ishan Misra, Samaneh Azadi
cs.AI

초록

텍스트-이미지 모델의 맞춤화는 사용자가 사용자 정의 개념을 삽입하고 보이지 않는 환경에서 개념을 생성할 수 있게 합니다. 기존 방법은 비용이 많이 드는 테스트 시간 최적화에 의존하거나 단일 이미지 훈련 데이터셋에서 인코더를 훈련시키지만 다중 이미지 감독을 제공하지 않아 이미지 품질이 저하됩니다. 우리는 이러한 한계를 해결하는 간단한 방법을 제안합니다. 먼저 기존 텍스트-이미지 모델과 3D 데이터셋을 활용하여 동일한 객체의 다양한 조명, 배경 및 자세를 가진 여러 이미지로 구성된 고품질의 합성 맞춤 데이터셋(SynCD)을 생성합니다. 그런 다음 입력 이미지에서 미세한 시각적 세부 사항을 더 잘 포함하는 공유된 주의 메커니즘에 기반한 새로운 인코더 아키텍처를 제안합니다. 마지막으로, 제안된 인코더와 추론 알고리즘을 사용하여 합성 데이터셋에서 훈련된 우리의 모델이 표준 맞춤화 벤치마크에서 기존의 조정 없는 방법을 능가함을 보여주는 새로운 추론 기술을 제안합니다.
English
Customization of text-to-image models enables users to insert custom concepts and generate the concepts in unseen settings. Existing methods either rely on costly test-time optimization or train encoders on single-image training datasets without multi-image supervision, leading to worse image quality. We propose a simple approach that addresses both limitations. We first leverage existing text-to-image models and 3D datasets to create a high-quality Synthetic Customization Dataset (SynCD) consisting of multiple images of the same object in different lighting, backgrounds, and poses. We then propose a new encoder architecture based on shared attention mechanisms that better incorporate fine-grained visual details from input images. Finally, we propose a new inference technique that mitigates overexposure issues during inference by normalizing the text and image guidance vectors. Through extensive experiments, we show that our model, trained on the synthetic dataset with the proposed encoder and inference algorithm, outperforms existing tuning-free methods on standard customization benchmarks.

Summary

AI-Generated Summary

PDF62February 5, 2025