FreeScale: Liberare la Risoluzione dei Modelli di Diffusione tramite Fusione di Scala Senza Taratura
FreeScale: Unleashing the Resolution of Diffusion Models via Tuning-Free Scale Fusion
December 12, 2024
Autori: Haonan Qiu, Shiwei Zhang, Yujie Wei, Ruihang Chu, Hangjie Yuan, Xiang Wang, Yingya Zhang, Ziwei Liu
cs.AI
Abstract
I modelli di diffusione visiva raggiungono progressi notevoli, ma sono tipicamente addestrati a risoluzioni limitate a causa della mancanza di dati ad alta risoluzione e risorse computazionali limitate, che ostacolano la capacità di generare immagini o video ad alta fedeltà a risoluzioni più elevate. Gli sforzi recenti hanno esplorato strategie senza sintonizzazione per mostrare il potenziale inutilizzato della generazione visiva ad alta risoluzione dei modelli pre-addestrati. Tuttavia, questi metodi sono ancora inclini a produrre contenuti visivi di bassa qualità con pattern ripetitivi. L'ostacolo chiave risiede nell'aumento inevitabile delle informazioni ad alta frequenza quando il modello genera contenuti visivi che superano la risoluzione di addestramento, portando a indesiderati pattern ripetitivi derivanti dagli errori accumulati. Per affrontare questa sfida, proponiamo FreeScale, un paradigma di inferenza senza sintonizzazione per consentire la generazione visiva ad alta risoluzione tramite fusione di scala. In particolare, FreeScale elabora informazioni da diverse scale percettive e le fonde estraendo componenti di frequenza desiderate. Esperimenti estesi convalidano la superiorità del nostro paradigma nel estendere le capacità della generazione visiva ad alta risoluzione per modelli di immagini e video. In particolare, rispetto al metodo precedentemente più performante, FreeScale sblocca per la prima volta la generazione di immagini a risoluzione 8k.
English
Visual diffusion models achieve remarkable progress, yet they are typically
trained at limited resolutions due to the lack of high-resolution data and
constrained computation resources, hampering their ability to generate
high-fidelity images or videos at higher resolutions. Recent efforts have
explored tuning-free strategies to exhibit the untapped potential
higher-resolution visual generation of pre-trained models. However, these
methods are still prone to producing low-quality visual content with repetitive
patterns. The key obstacle lies in the inevitable increase in high-frequency
information when the model generates visual content exceeding its training
resolution, leading to undesirable repetitive patterns deriving from the
accumulated errors. To tackle this challenge, we propose FreeScale, a
tuning-free inference paradigm to enable higher-resolution visual generation
via scale fusion. Specifically, FreeScale processes information from different
receptive scales and then fuses it by extracting desired frequency components.
Extensive experiments validate the superiority of our paradigm in extending the
capabilities of higher-resolution visual generation for both image and video
models. Notably, compared with the previous best-performing method, FreeScale
unlocks the generation of 8k-resolution images for the first time.Summary
AI-Generated Summary