Naar Begeleidingsvrije AR Visuele Generatie via Voorwaardelijke Contrastieve Afstemming
Toward Guidance-Free AR Visual Generation via Condition Contrastive Alignment
October 12, 2024
Auteurs: Huayu Chen, Hang Su, Peize Sun, Jun Zhu
cs.AI
Samenvatting
Classifier-Free Guidance (CFG) is een cruciale techniek voor het verbeteren van de kwaliteit van de steekproef van visuele generatieve modellen. Echter, bij autoregressieve (AR) multimodale generatie introduceert CFG ontwerpinconsistenties tussen taal en visuele inhoud, wat ingaat tegen de ontwerpfilosofie van het verenigen van verschillende modaliteiten voor visuele AR. Geïnspireerd door methoden voor taalmodeluitlijning, stellen we Condition Contrastive Alignment (CCA) voor om begeleidingsvrije AR visuele generatie te vergemakkelijken met hoge prestaties en analyseren we de theoretische verbinding met begeleide bemonsteringsmethoden. In tegenstelling tot begeleidingsmethoden die het bemonsteringsproces wijzigen om de ideale bemonsteringsverdeling te bereiken, stemt CCA vooraf getrainde modellen direct af om aan dezelfde distributiedoelstelling te voldoen. Experimentele resultaten tonen aan dat CCA aanzienlijk de begeleidingsvrije prestaties van alle geteste modellen kan verbeteren met slechts één epoch van fijnafstemming (ongeveer 1% van de voorafgaande trainingsepochs) op de vooraf trainingsdataset, vergelijkbaar met begeleide bemonsteringsmethoden. Dit vermindert grotendeels de noodzaak voor begeleide bemonstering in AR visuele generatie en verlaagt de bemonsteringskosten met de helft. Bovendien kan CCA door het aanpassen van trainingsparameters compromissen bereiken tussen steekproefdiversiteit en geloofwaardigheid vergelijkbaar met CFG. Dit bevestigt experimenteel de sterke theoretische verbinding tussen taalgerichte uitlijning en visueelgerichte begeleidingsmethoden, waarbij twee eerder onafhankelijke onderzoeksvelden worden verenigd. Code en modelgewichten: https://github.com/thu-ml/CCA.
English
Classifier-Free Guidance (CFG) is a critical technique for enhancing the
sample quality of visual generative models. However, in autoregressive (AR)
multi-modal generation, CFG introduces design inconsistencies between language
and visual content, contradicting the design philosophy of unifying different
modalities for visual AR. Motivated by language model alignment methods, we
propose Condition Contrastive Alignment (CCA) to facilitate
guidance-free AR visual generation with high performance and analyze its
theoretical connection with guided sampling methods. Unlike guidance methods
that alter the sampling process to achieve the ideal sampling distribution, CCA
directly fine-tunes pretrained models to fit the same distribution target.
Experimental results show that CCA can significantly enhance the guidance-free
performance of all tested models with just one epoch of fine-tuning (sim 1\%
of pretraining epochs) on the pretraining dataset, on par with guided sampling
methods. This largely removes the need for guided sampling in AR visual
generation and cuts the sampling cost by half. Moreover, by adjusting training
parameters, CCA can achieve trade-offs between sample diversity and fidelity
similar to CFG. This experimentally confirms the strong theoretical connection
between language-targeted alignment and visual-targeted guidance methods,
unifying two previously independent research fields. Code and model weights:
https://github.com/thu-ml/CCA.Summary
AI-Generated Summary