확산 모델에서 과총포화와 높은 가이드 스케일의 아티팩트 제거
Eliminating Oversaturation and Artifacts of High Guidance Scales in Diffusion Models
October 3, 2024
저자: Seyedmorteza Sadat, Otmar Hilliges, Romann M. Weber
cs.AI
초록
분류기 없는 가이던스(Classifier-free guidance, CFG)는 확산 모델에서 생성 품질과 입력 조건과 최종 출력 간의 정렬을 향상시키는 데 중요합니다. 이러한 측면을 향상시키기 위해서는 일반적으로 높은 가이던스 스케일이 필요하지만, 이는 과다 포화와 현실적이지 않은 아티팩트를 초래하기도 합니다. 본 논문에서는 CFG 업데이트 규칙을 재검토하고 이 문제를 해결하기 위한 수정 사항을 소개합니다. 먼저 CFG의 업데이트 용어를 조건부 모델 예측에 대한 평행 및 직교 성분으로 분해하고, 평행 성분이 주로 과다 포화를 일으키는 반면, 직교 성분은 이미지 품질을 향상시킵니다. 따라서 과다 포화 없이 높은 품질의 생성을 달성하기 위해 평행 성분을 가중치를 낮추는 것을 제안합니다. 게다가, CFG와 경사 상승 사이의 연결을 도출하고 이 통찰력을 기반으로 CFG 업데이트 규칙에 대한 새로운 재스케일링 및 모멘텀 방법을 소개합니다. 우리의 접근 방식인 적응 프로젝트 가이던스(Adaptive Projected Guidance, APG)는 CFG의 품질 향상 장점을 유지하면서 과다 포화 없이 더 높은 가이던스 스케일을 사용할 수 있도록 합니다. APG는 구현이 쉽고 샘플링 프로세스에 실질적으로 추가적인 계산 부담을 거의 미치지 않습니다. 다양한 조건부 확산 모델 및 샘플러와 호환되는 것으로 APG가 개선된 FID, 리콜 및 포화 점수를 보여주며 CFG와 비교 가능한 정밀도를 유지하면서 표준 분류기 없는 가이던스에 대한 우수한 플러그 앤 플레이 대안이 되는 것을 입증합니다.
English
Classifier-free guidance (CFG) is crucial for improving both generation
quality and alignment between the input condition and final output in diffusion
models. While a high guidance scale is generally required to enhance these
aspects, it also causes oversaturation and unrealistic artifacts. In this
paper, we revisit the CFG update rule and introduce modifications to address
this issue. We first decompose the update term in CFG into parallel and
orthogonal components with respect to the conditional model prediction and
observe that the parallel component primarily causes oversaturation, while the
orthogonal component enhances image quality. Accordingly, we propose
down-weighting the parallel component to achieve high-quality generations
without oversaturation. Additionally, we draw a connection between CFG and
gradient ascent and introduce a new rescaling and momentum method for the CFG
update rule based on this insight. Our approach, termed adaptive projected
guidance (APG), retains the quality-boosting advantages of CFG while enabling
the use of higher guidance scales without oversaturation. APG is easy to
implement and introduces practically no additional computational overhead to
the sampling process. Through extensive experiments, we demonstrate that APG is
compatible with various conditional diffusion models and samplers, leading to
improved FID, recall, and saturation scores while maintaining precision
comparable to CFG, making our method a superior plug-and-play alternative to
standard classifier-free guidance.Summary
AI-Generated Summary