조건 대조 정렬을 통한 가이드 없는 AR 시각 생성 방향으로

Toward Guidance-Free AR Visual Generation via Condition Contrastive Alignment

October 12, 2024
저자: Huayu Chen, Hang Su, Peize Sun, Jun Zhu
cs.AI

초록

분류기 없는 가이던스 (CFG)는 시각적 생성 모델의 샘플 품질을 향상시키는 데 중요한 기술입니다. 그러나 자기 회귀 (AR) 다중 모달 생성에서 CFG는 언어와 시각적 콘텐츠 간의 설계 불일치를 도입하여 시각 AR의 다른 모달을 통합하는 설계 철학과 모순됩니다. 언어 모델 정렬 방법에 영감을 받아 Condition Contrastive Alignment (CCA)를 제안하여 고성능의 가이던스 없는 AR 시각 생성을 용이하게 하고 그 이론적 연결을 분석합니다. 이상적인 샘플링 분포를 달성하기 위해 샘플링 프로세스를 변경하는 가이던스 방법과 달리 CCA는 미리 학습된 모델을 동일한 분포 목표에 맞게 직접 세밀하게 조정합니다. 실험 결과는 CCA가 미리 학습 데이터 세트에서 미세 조정 (미세 조정 전체의 약 1\%)으로 모든 테스트된 모델의 가이던스 없는 성능을 크게 향상시킬 수 있음을 보여주며, 가이드된 샘플링 방법과 유사한 수준으로 가이던스 없는 AR 시각 생성에서 가이드된 샘플링의 필요성을 크게 줄입니다. 또한, 훈련 매개변수를 조정함으로써 CCA는 CFG와 유사하게 샘플 다양성과 충실성 사이의 균형을 달성할 수 있습니다. 이는 언어-대상 정렬과 시각-대상 가이던스 방법 간의 강력한 이론적 연결을 실험적으로 확인하여 이전에 독립적이었던 두 연구 분야를 통합합니다. 코드 및 모델 가중치: https://github.com/thu-ml/CCA.
English
Classifier-Free Guidance (CFG) is a critical technique for enhancing the sample quality of visual generative models. However, in autoregressive (AR) multi-modal generation, CFG introduces design inconsistencies between language and visual content, contradicting the design philosophy of unifying different modalities for visual AR. Motivated by language model alignment methods, we propose Condition Contrastive Alignment (CCA) to facilitate guidance-free AR visual generation with high performance and analyze its theoretical connection with guided sampling methods. Unlike guidance methods that alter the sampling process to achieve the ideal sampling distribution, CCA directly fine-tunes pretrained models to fit the same distribution target. Experimental results show that CCA can significantly enhance the guidance-free performance of all tested models with just one epoch of fine-tuning (sim 1\% of pretraining epochs) on the pretraining dataset, on par with guided sampling methods. This largely removes the need for guided sampling in AR visual generation and cuts the sampling cost by half. Moreover, by adjusting training parameters, CCA can achieve trade-offs between sample diversity and fidelity similar to CFG. This experimentally confirms the strong theoretical connection between language-targeted alignment and visual-targeted guidance methods, unifying two previously independent research fields. Code and model weights: https://github.com/thu-ml/CCA.

Summary

AI-Generated Summary

PDF42November 16, 2024