대규모 텍스트 대 이미지 모델은 인페인팅을 통한 제로샷 주제 주도 이미지 생성기입니다.
Large-Scale Text-to-Image Model with Inpainting is a Zero-Shot Subject-Driven Image Generator
November 23, 2024
저자: Chaehun Shin, Jooyoung Choi, Heeseung Kim, Sungroh Yoon
cs.AI
초록
주체 중심 텍스트 대 이미지 생성은 새로운 주체의 이미지를 원하는 맥락 내에서 정확하게 캡처하여 주체의 시각적 특성과 텍스트 프롬프트의 의미적 내용을 모두 보여주는 것을 목표로 합니다. 기존 방법은 주체 정렬을 위해 시간과 자원을 많이 필요로 하는 미세 조정에 의존하며, 최근의 제로샷 접근법은 온더플라이 이미지 프롬프팅을 활용하며 종종 주체 정렬을 희생시킵니다. 본 논문에서는 대규모 텍스트 대 이미지 모델에서 발생하는 디피크 생성의 신흥 특성을 활용하여 정확한 주체 정렬을 통해 재해석하는 새로운 제로샷 접근법인 디피크 프롬프팅을 소개합니다. 디피크 프롬프팅은 왼쪽 패널에 참조 이미지와 함께 불완전한 디피크를 배치하고, 오른쪽 패널에서 텍스트에 의존하는 인페인팅을 수행합니다. 또한 참조 이미지에서 배경을 제거함으로써 원치 않는 콘텐츠 누출을 방지하고, 인페인팅 중 패널 간 주의 가중치를 강화하여 생성된 주체의 세부 사항을 개선합니다. 실험 결과는 우리의 방법이 제로샷 이미지 프롬프팅 방법을 크게 능가하여 사용자들이 시각적으로 선호하는 이미지를 생성한다는 것을 확인합니다. 더불어, 우리의 방법은 주체 중심 생성 뿐만 아니라 스타일화된 이미지 생성 및 주체 중심 이미지 편집을 지원하며, 다양한 이미지 생성 응용 프로그램에서 다재다능함을 보여줍니다. 프로젝트 페이지: https://diptychprompting.github.io/
English
Subject-driven text-to-image generation aims to produce images of a new
subject within a desired context by accurately capturing both the visual
characteristics of the subject and the semantic content of a text prompt.
Traditional methods rely on time- and resource-intensive fine-tuning for
subject alignment, while recent zero-shot approaches leverage on-the-fly image
prompting, often sacrificing subject alignment. In this paper, we introduce
Diptych Prompting, a novel zero-shot approach that reinterprets as an
inpainting task with precise subject alignment by leveraging the emergent
property of diptych generation in large-scale text-to-image models. Diptych
Prompting arranges an incomplete diptych with the reference image in the left
panel, and performs text-conditioned inpainting on the right panel. We further
prevent unwanted content leakage by removing the background in the reference
image and improve fine-grained details in the generated subject by enhancing
attention weights between the panels during inpainting. Experimental results
confirm that our approach significantly outperforms zero-shot image prompting
methods, resulting in images that are visually preferred by users.
Additionally, our method supports not only subject-driven generation but also
stylized image generation and subject-driven image editing, demonstrating
versatility across diverse image generation applications. Project page:
https://diptychprompting.github.io/Summary
AI-Generated Summary