텍스트부스트: 텍스트 인코더의 파인튜닝을 통한 일회용 텍스트-이미지 모델 개인화에 대한 연구
TextBoost: Towards One-Shot Personalization of Text-to-Image Models via Fine-tuning Text Encoder
September 12, 2024
저자: NaHyeon Park, Kunhee Kim, Hyunjung Shim
cs.AI
초록
최근 텍스트-이미지 모델의 획기적인 발전은 맞춤형 이미지 생성 분야에서 유망한 연구 방향을 열었으며, 사용자가 자연어 프롬프트를 사용하여 특정 주제의 다양한 이미지를 만들 수 있게 했습니다. 그러나 기존 방법들은 종종 단일 참조 이미지만 제공될 때 성능이 저하되는 문제가 있습니다. 입력에 과적합되어 텍스트 프롬프트에 관계없이 매우 유사한 출력물을 생성하는 경향이 있습니다. 본 논문은 오버피팅을 완화하여 한 번에 한 장의 이미지를 통한 맞춤화의 과제에 대처하며, 텍스트 프롬프트를 통해 조절 가능한 이미지를 생성할 수 있도록 합니다. 구체적으로, 우리는 텍스트 인코더에 초점을 맞춘 선택적 파인 튜닝 전략을 제안합니다. 더불어, 맞춤화 성능을 향상시키기 위한 세 가지 주요 기술을 소개합니다: (1) 특징 분리를 촉진하고 오버피팅을 완화하기 위한 증가 토큰, (2) 언어 이동을 줄이고 다양한 프롬프트에 대한 일반화를 촉진하기 위한 지식 보존 손실, 그리고 (3) 효율적인 훈련을 위한 SNR 가중 샘플링. 광범위한 실험을 통해 우리의 접근 방식이 단일 참조 이미지만 사용하여 고품질이고 다양한 이미지를 효율적으로 생성하면서 메모리 및 저장 요구 사항을 크게 줄였음을 입증합니다.
English
Recent breakthroughs in text-to-image models have opened up promising
research avenues in personalized image generation, enabling users to create
diverse images of a specific subject using natural language prompts. However,
existing methods often suffer from performance degradation when given only a
single reference image. They tend to overfit the input, producing highly
similar outputs regardless of the text prompt. This paper addresses the
challenge of one-shot personalization by mitigating overfitting, enabling the
creation of controllable images through text prompts. Specifically, we propose
a selective fine-tuning strategy that focuses on the text encoder. Furthermore,
we introduce three key techniques to enhance personalization performance: (1)
augmentation tokens to encourage feature disentanglement and alleviate
overfitting, (2) a knowledge-preservation loss to reduce language drift and
promote generalizability across diverse prompts, and (3) SNR-weighted sampling
for efficient training. Extensive experiments demonstrate that our approach
efficiently generates high-quality, diverse images using only a single
reference image while significantly reducing memory and storage requirements.Summary
AI-Generated Summary