ChatPaper.aiChatPaper

안내 없는 시각 생성

Visual Generation Without Guidance

January 26, 2025
저자: Huayu Chen, Kai Jiang, Kaiwen Zheng, Jianfei Chen, Hang Su, Jun Zhu
cs.AI

초록

분류기 없는 가이드 (CFG)는 다양한 시각적 생성 모델에서 기본 기술이었지만, 샘플링 중 조건부 및 무조건적 모델에서 추론이 필요합니다. 우리는 가이드된 샘플링에서 자유로운 시각 모델을 구축하는 것을 제안합니다. 그 결과로 나온 알고리즘인 가이드 없는 훈련 (GFT)은 샘플링을 단일 모델로 줄이면서도 CFG의 성능을 맞추며 계산 비용을 절반으로 줄입니다. 사전에 훈련된 CFG 네트워크에 의존하는 이전의 증류 기반 접근법과는 달리, GFT는 처음부터 직접 훈련할 수 있습니다. GFT는 구현하기 간단합니다. CFG와 동일한 최대 우도 목표를 유지하며 주로 조건부 모델의 매개변수화에서 차이가 있습니다. GFT를 구현하는 데는 기존 코드베이스에 대부분의 설계 선택과 하이퍼파라미터가 직접 상속되므로 최소한의 수정만 필요합니다. 다섯 가지 다른 시각 모델에 걸쳐 수행한 포괄적인 실험은 GFT의 효과성과 다재다능성을 입증합니다. 확산, 자기 회귀 및 가리개 예측 모델링 영역을 통해, GFT는 일관되거나 때로는 더 낮은 FID 점수를 달성하며, CFG 기준과 유사한 다양성-신뢰도 균형을 유지하면서도 가이드 없이 작동합니다. 코드는 https://github.com/thu-ml/GFT에서 사용할 수 있습니다.
English
Classifier-Free Guidance (CFG) has been a default technique in various visual generative models, yet it requires inference from both conditional and unconditional models during sampling. We propose to build visual models that are free from guided sampling. The resulting algorithm, Guidance-Free Training (GFT), matches the performance of CFG while reducing sampling to a single model, halving the computational cost. Unlike previous distillation-based approaches that rely on pretrained CFG networks, GFT enables training directly from scratch. GFT is simple to implement. It retains the same maximum likelihood objective as CFG and differs mainly in the parameterization of conditional models. Implementing GFT requires only minimal modifications to existing codebases, as most design choices and hyperparameters are directly inherited from CFG. Our extensive experiments across five distinct visual models demonstrate the effectiveness and versatility of GFT. Across domains of diffusion, autoregressive, and masked-prediction modeling, GFT consistently achieves comparable or even lower FID scores, with similar diversity-fidelity trade-offs compared with CFG baselines, all while being guidance-free. Code will be available at https://github.com/thu-ml/GFT.

Summary

AI-Generated Summary

PDF83January 28, 2025