HiFlow: Generazione di Immagini ad Alta Risoluzione senza Addestramento con Guida Allineata al Flusso
HiFlow: Training-free High-Resolution Image Generation with Flow-Aligned Guidance
April 8, 2025
Autori: Jiazi Bu, Pengyang Ling, Yujie Zhou, Pan Zhang, Tong Wu, Xiaoyi Dong, Yuhang Zang, Yuhang Cao, Dahua Lin, Jiaqi Wang
cs.AI
Abstract
I modelli di diffusione/flusso text-to-image (T2I) hanno attirato notevole attenzione di recente grazie alla loro straordinaria capacità di produrre creazioni visive flessibili. Tuttavia, la sintesi di immagini ad alta risoluzione presenta sfide considerevoli a causa della scarsità e della complessità dei contenuti ad alta risoluzione. A tal fine, presentiamo HiFlow, un framework agnostico rispetto al modello e privo di addestramento, progettato per sbloccare il potenziale di risoluzione dei modelli di flusso pre-addestrati. Nello specifico, HiFlow stabilisce un flusso di riferimento virtuale all'interno dello spazio ad alta risoluzione che cattura efficacemente le caratteristiche delle informazioni di flusso a bassa risoluzione, offrendo una guida per la generazione ad alta risoluzione attraverso tre aspetti chiave: allineamento dell'inizializzazione per la coerenza delle basse frequenze, allineamento della direzione per la preservazione della struttura e allineamento dell'accelerazione per la fedeltà dei dettagli. Sfruttando questa guida allineata al flusso, HiFlow eleva significativamente la qualità della sintesi di immagini ad alta risoluzione dei modelli T2I e dimostra versatilità attraverso le loro varianti personalizzate. Esperimenti estensivi convalidano la superiorità di HiFlow nel raggiungere una qualità di immagine ad alta risoluzione superiore rispetto ai metodi all'avanguardia attuali.
English
Text-to-image (T2I) diffusion/flow models have drawn considerable attention
recently due to their remarkable ability to deliver flexible visual creations.
Still, high-resolution image synthesis presents formidable challenges due to
the scarcity and complexity of high-resolution content. To this end, we present
HiFlow, a training-free and model-agnostic framework to unlock the resolution
potential of pre-trained flow models. Specifically, HiFlow establishes a
virtual reference flow within the high-resolution space that effectively
captures the characteristics of low-resolution flow information, offering
guidance for high-resolution generation through three key aspects:
initialization alignment for low-frequency consistency, direction alignment for
structure preservation, and acceleration alignment for detail fidelity. By
leveraging this flow-aligned guidance, HiFlow substantially elevates the
quality of high-resolution image synthesis of T2I models and demonstrates
versatility across their personalized variants. Extensive experiments validate
HiFlow's superiority in achieving superior high-resolution image quality over
current state-of-the-art methods.Summary
AI-Generated Summary