Addestramento Efficiente di Modelli Generativi tramite Riscaldamento delle Rappresentazioni Incorporate

Abstract

I modelli di diffusione eccellono nella generazione di dati ad alta dimensionalità, ma risultano carenti in termini di efficienza di addestramento e qualità delle rappresentazioni rispetto ai metodi self-supervised. Identifichiamo un collo di bottiglia chiave: il sottoutilizzo di rappresentazioni di alta qualità e semanticamente ricche durante l'addestramento rallenta notevolmente la convergenza. La nostra analisi sistematica rivela una regione critica di elaborazione delle rappresentazioni — principalmente nei livelli iniziali — dove avviene l'apprendimento di pattern semantici e strutturali prima che possa verificarsi la generazione. Per affrontare questo problema, proponiamo l'Embedded Representation Warmup (ERW), un framework plug-and-play in cui, nella prima fase, il modulo ERW funge da riscaldamento che inizializza i livelli iniziali del modello di diffusione con rappresentazioni pre-addestrate di alta qualità. Questo riscaldamento minimizza il carico di apprendere rappresentazioni da zero, accelerando così la convergenza e migliorando le prestazioni. La nostra analisi teorica dimostra che l'efficacia di ERW dipende dalla sua integrazione precisa in specifici strati della rete neurale — denominati regione di elaborazione delle rappresentazioni — dove il modello elabora e trasforma principalmente le rappresentazioni delle feature per la successiva generazione. Stabiliamo inoltre che ERW non solo accelera la convergenza dell'addestramento, ma migliora anche la qualità delle rappresentazioni: empiricamente, il nostro metodo raggiunge un'accelerazione di 40 volte nella velocità di addestramento rispetto a REPA, gli attuali metodi all'avanguardia. Il codice è disponibile all'indirizzo https://github.com/LINs-lab/ERW.

English

Diffusion models excel at generating high-dimensional data but fall short in training efficiency and representation quality compared to self-supervised methods. We identify a key bottleneck: the underutilization of high-quality, semantically rich representations during training notably slows down convergence. Our systematic analysis reveals a critical representation processing region -- primarily in the early layers -- where semantic and structural pattern learning takes place before generation can occur. To address this, we propose Embedded Representation Warmup (ERW), a plug-and-play framework where in the first stage we get the ERW module serves as a warmup that initializes the early layers of the diffusion model with high-quality, pretrained representations. This warmup minimizes the burden of learning representations from scratch, thereby accelerating convergence and boosting performance. Our theoretical analysis demonstrates that ERW's efficacy depends on its precise integration into specific neural network layers -- termed the representation processing region -- where the model primarily processes and transforms feature representations for later generation. We further establish that ERW not only accelerates training convergence but also enhances representation quality: empirically, our method achieves a 40times acceleration in training speed compared to REPA, the current state-of-the-art methods. Code is available at https://github.com/LINs-lab/ERW.

Addestramento Efficiente di Modelli Generativi tramite Riscaldamento delle Rappresentazioni Incorporate

Efficient Generative Model Training via Embedded Representation Warmup

Abstract

Summary

Support

Support