CFG-Zero*: Verbesserte Classifier-Free Guidance für Flow-Matching-Modelle
CFG-Zero*: Improved Classifier-Free Guidance for Flow Matching Models
March 24, 2025
Autoren: Weichen Fan, Amber Yijia Zheng, Raymond A. Yeh, Ziwei Liu
cs.AI
Zusammenfassung
Classifier-Free Guidance (CFG) ist eine weit verbreitete Technik in Diffusions-/Flow-Modellen, um die Bildqualität und Steuerbarkeit zu verbessern. In dieser Arbeit untersuchen wir zunächst analytisch die Auswirkungen von CFG auf Flow-Matching-Modelle, die auf Gaußschen Mischungen trainiert wurden, bei denen der Ground-Truth-Flow abgeleitet werden kann. Wir beobachten, dass CFG in den frühen Trainingsphasen, wenn die Flussschätzung ungenau ist, Proben in falsche Trajektorien lenkt. Aufbauend auf dieser Beobachtung schlagen wir CFG-Zero* vor, eine verbesserte Version von CFG mit zwei wesentlichen Beiträgen: (a) optimierte Skalierung, bei der ein Skalar optimiert wird, um die Ungenauigkeiten in der geschätzten Geschwindigkeit zu korrigieren, was den * im Namen erklärt; und (b) Zero-Init, bei dem die ersten Schritte des ODE-Solvers auf Null gesetzt werden. Experimente sowohl zur Text-zu-Bild-Generierung (Lumina-Next, Stable Diffusion 3 und Flux) als auch zur Text-zu-Video-Generierung (Wan-2.1) zeigen, dass CFG-Zero* CFG durchweg übertrifft, was seine Effektivität bei der Führung von Flow-Matching-Modellen unterstreicht. (Der Code ist verfügbar unter github.com/WeichenFan/CFG-Zero-star)
English
Classifier-Free Guidance (CFG) is a widely adopted technique in
diffusion/flow models to improve image fidelity and controllability. In this
work, we first analytically study the effect of CFG on flow matching models
trained on Gaussian mixtures where the ground-truth flow can be derived. We
observe that in the early stages of training, when the flow estimation is
inaccurate, CFG directs samples toward incorrect trajectories. Building on this
observation, we propose CFG-Zero*, an improved CFG with two contributions: (a)
optimized scale, where a scalar is optimized to correct for the inaccuracies in
the estimated velocity, hence the * in the name; and (b) zero-init, which
involves zeroing out the first few steps of the ODE solver. Experiments on both
text-to-image (Lumina-Next, Stable Diffusion 3, and Flux) and text-to-video
(Wan-2.1) generation demonstrate that CFG-Zero* consistently outperforms CFG,
highlighting its effectiveness in guiding Flow Matching models. (Code is
available at github.com/WeichenFan/CFG-Zero-star)Summary
AI-Generated Summary