텍스트-이미지 확산 모델을 위한 장문 텍스트 정렬 개선
Improving Long-Text Alignment for Text-to-Image Diffusion Models
October 15, 2024
저자: Luping Liu, Chao Du, Tianyu Pang, Zehan Wang, Chongxuan Li, Dong Xu
cs.AI
초록
텍스트-이미지 (T2I) 확산 모델의 신속한 발전으로 인해 주어진 텍스트로부터 전례 없는 결과물을 생성할 수 있게 되었습니다. 그러나 텍스트 입력이 길어지면 CLIP과 같은 기존 인코딩 방법은 한계에 직면하며 생성된 이미지를 긴 텍스트와 일치시키는 것이 어려워집니다. 이러한 문제를 해결하기 위해 우리는 LongAlign을 제안합니다. LongAlign은 긴 텍스트를 처리하기 위한 세그먼트 수준 인코딩 방법과 효과적인 정렬 훈련을 위한 분해된 선호도 최적화 방법을 포함합니다. 세그먼트 수준 인코딩을 위해 긴 텍스트는 여러 세그먼트로 나누어 별도로 처리됩니다. 이 방법은 사전 훈련된 인코딩 모델의 최대 입력 길이 제한을 극복합니다. 선호도 최적화를 위해 우리는 분해된 CLIP 기반 선호도 모델을 제공하여 확산 모델을 세밀하게 조정합니다. 구체적으로 T2I 정렬을 위해 CLIP 기반 선호도 모델을 활용하기 위해 그들의 점수 메커니즘을 탐구하고 선호도 점수를 텍스트 관련 부분과 T2I 정렬을 측정하는 부분, 그리고 텍스트와 관련 없는 부분으로 분해할 수 있다는 것을 발견했습니다. 또한, 텍스트와 관련 없는 부분이 세밀 조정 중 공통적인 과적합 문제에 기여한다는 것을 발견했습니다. 이를 해결하기 위해 우리는 이 두 부분에 서로 다른 가중치를 할당하는 다시 가중치 전략을 제안하여 과적합을 줄이고 정렬을 향상시킵니다. 우리의 방법을 사용하여 512번의 세밀한 조정을 통해 512 Stable Diffusion (SD) v1.5를 약 20시간 동안 훈련한 결과, 세밀하게 조정된 SD는 PixArt-alpha 및 Kandinsky v2.2와 같은 강력한 기본 모델을 능가하는 T2I 정렬에서 우수한 성과를 거뒀습니다. 코드는 https://github.com/luping-liu/LongAlign에서 확인할 수 있습니다.
English
The rapid advancement of text-to-image (T2I) diffusion models has enabled
them to generate unprecedented results from given texts. However, as text
inputs become longer, existing encoding methods like CLIP face limitations, and
aligning the generated images with long texts becomes challenging. To tackle
these issues, we propose LongAlign, which includes a segment-level encoding
method for processing long texts and a decomposed preference optimization
method for effective alignment training. For segment-level encoding, long texts
are divided into multiple segments and processed separately. This method
overcomes the maximum input length limits of pretrained encoding models. For
preference optimization, we provide decomposed CLIP-based preference models to
fine-tune diffusion models. Specifically, to utilize CLIP-based preference
models for T2I alignment, we delve into their scoring mechanisms and find that
the preference scores can be decomposed into two components: a text-relevant
part that measures T2I alignment and a text-irrelevant part that assesses other
visual aspects of human preference. Additionally, we find that the
text-irrelevant part contributes to a common overfitting problem during
fine-tuning. To address this, we propose a reweighting strategy that assigns
different weights to these two components, thereby reducing overfitting and
enhancing alignment. After fine-tuning 512 times 512 Stable Diffusion (SD)
v1.5 for about 20 hours using our method, the fine-tuned SD outperforms
stronger foundation models in T2I alignment, such as PixArt-alpha and
Kandinsky v2.2. The code is available at
https://github.com/luping-liu/LongAlign.Summary
AI-Generated Summary