HiFlow: Generazione di Immagini ad Alta Risoluzione senza Addestramento con Guida Allineata al Flusso

Abstract

I modelli di diffusione/flusso text-to-image (T2I) hanno attirato notevole attenzione di recente grazie alla loro straordinaria capacità di produrre creazioni visive flessibili. Tuttavia, la sintesi di immagini ad alta risoluzione presenta sfide considerevoli a causa della scarsità e della complessità dei contenuti ad alta risoluzione. A tal fine, presentiamo HiFlow, un framework agnostico rispetto al modello e privo di addestramento, progettato per sbloccare il potenziale di risoluzione dei modelli di flusso pre-addestrati. Nello specifico, HiFlow stabilisce un flusso di riferimento virtuale all'interno dello spazio ad alta risoluzione che cattura efficacemente le caratteristiche delle informazioni di flusso a bassa risoluzione, offrendo una guida per la generazione ad alta risoluzione attraverso tre aspetti chiave: allineamento dell'inizializzazione per la coerenza delle basse frequenze, allineamento della direzione per la preservazione della struttura e allineamento dell'accelerazione per la fedeltà dei dettagli. Sfruttando questa guida allineata al flusso, HiFlow eleva significativamente la qualità della sintesi di immagini ad alta risoluzione dei modelli T2I e dimostra versatilità attraverso le loro varianti personalizzate. Esperimenti estensivi convalidano la superiorità di HiFlow nel raggiungere una qualità di immagine ad alta risoluzione superiore rispetto ai metodi all'avanguardia attuali.

English

Text-to-image (T2I) diffusion/flow models have drawn considerable attention recently due to their remarkable ability to deliver flexible visual creations. Still, high-resolution image synthesis presents formidable challenges due to the scarcity and complexity of high-resolution content. To this end, we present HiFlow, a training-free and model-agnostic framework to unlock the resolution potential of pre-trained flow models. Specifically, HiFlow establishes a virtual reference flow within the high-resolution space that effectively captures the characteristics of low-resolution flow information, offering guidance for high-resolution generation through three key aspects: initialization alignment for low-frequency consistency, direction alignment for structure preservation, and acceleration alignment for detail fidelity. By leveraging this flow-aligned guidance, HiFlow substantially elevates the quality of high-resolution image synthesis of T2I models and demonstrates versatility across their personalized variants. Extensive experiments validate HiFlow's superiority in achieving superior high-resolution image quality over current state-of-the-art methods.

HiFlow: Generazione di Immagini ad Alta Risoluzione senza Addestramento con Guida Allineata al Flusso

HiFlow: Training-free High-Resolution Image Generation with Flow-Aligned Guidance

Abstract

Summary

Support

Support