ChatPaper.aiChatPaper

확산 모델을 위한 이중 자막 선호도 최적화

Dual Caption Preference Optimization for Diffusion Models

February 9, 2025
저자: Amir Saeidi, Yiran Luo, Agneet Chatterjee, Shamanthak Hegde, Bimsara Pathiraja, Yezhou Yang, Chitta Baral
cs.AI

초록

인간 선호도 최적화 분야의 최근 발전은 원래 대형 언어 모델 (LLM)을 위해 개발된 것으로, 텍스트-이미지 확산 모델의 개선 가능성을 보여주고 있습니다. 이러한 방법은 선호하는 샘플의 분포를 학습하고, 이를 선호하지 않는 것과 구분하려고 합니다. 그러나 기존의 선호도 데이터셋은 종종 이러한 분포 간에 중첩이 발생하여 충돌 분포로 이어지곤 합니다. 또한, 우리는 입력 프롬프트가 선호하지 않는 이미지에 대한 관련 없는 정보를 포함하고 있어, 노이즈를 정확하게 예측하는 데 제한을 가하는 데노이징 네트워크의 능력을 제한하는 것을 확인했습니다. 이를 "관련 없는 프롬프트 문제"라고 합니다. 이러한 도전에 대응하기 위해, 우리는 관련 없는 프롬프트를 완화하기 위해 두 가지 다른 캡션을 활용하는 새로운 접근 방식인 이중 캡션 선호도 최적화 (DCPO)를 제안합니다. 충돌 분포에 대처하기 위해, 우리는 선호하는 이미지와 선호하지 않는 이미지를 위한 별도의 캡션을 가진 Pick-Double Caption 데이터셋을 소개합니다. 또한, 서로 다른 캡션을 생성하기 위한 세 가지 다른 전략을 제안합니다: 캡션 생성, 변형, 그리고 혼합 방법. 우리의 실험 결과는 DCPO가 이미지 품질과 프롬프트와의 관련성을 크게 향상시키며, Pickscore, HPSv2.1, GenEval, CLIPscore, 그리고 ImageReward를 포함한 여러 메트릭에서 SD 2.1을 백본으로 세밀하게 조정한 상태에서 Stable Diffusion (SD) 2.1, SFT_Chosen, Diffusion-DPO, 그리고 MaPO를 능가한다는 것을 보여줍니다.
English
Recent advancements in human preference optimization, originally developed for Large Language Models (LLMs), have shown significant potential in improving text-to-image diffusion models. These methods aim to learn the distribution of preferred samples while distinguishing them from less preferred ones. However, existing preference datasets often exhibit overlap between these distributions, leading to a conflict distribution. Additionally, we identified that input prompts contain irrelevant information for less preferred images, limiting the denoising network's ability to accurately predict noise in preference optimization methods, known as the irrelevant prompt issue. To address these challenges, we propose Dual Caption Preference Optimization (DCPO), a novel approach that utilizes two distinct captions to mitigate irrelevant prompts. To tackle conflict distribution, we introduce the Pick-Double Caption dataset, a modified version of Pick-a-Pic v2 with separate captions for preferred and less preferred images. We further propose three different strategies for generating distinct captions: captioning, perturbation, and hybrid methods. Our experiments show that DCPO significantly improves image quality and relevance to prompts, outperforming Stable Diffusion (SD) 2.1, SFT_Chosen, Diffusion-DPO, and MaPO across multiple metrics, including Pickscore, HPSv2.1, GenEval, CLIPscore, and ImageReward, fine-tuned on SD 2.1 as the backbone.

Summary

AI-Generated Summary

PDF92February 11, 2025