Addestramento Efficiente di Modelli Generativi tramite Riscaldamento delle Rappresentazioni Incorporate
Efficient Generative Model Training via Embedded Representation Warmup
April 14, 2025
Autori: Deyuan Liu, Peng Sun, Xufeng Li, Tao Lin
cs.AI
Abstract
I modelli di diffusione eccellono nella generazione di dati ad alta dimensionalità, ma risultano carenti in termini di efficienza di addestramento e qualità delle rappresentazioni rispetto ai metodi self-supervised. Identifichiamo un collo di bottiglia chiave: il sottoutilizzo di rappresentazioni di alta qualità e semanticamente ricche durante l'addestramento rallenta notevolmente la convergenza. La nostra analisi sistematica rivela una regione critica di elaborazione delle rappresentazioni — principalmente nei livelli iniziali — dove avviene l'apprendimento di pattern semantici e strutturali prima che possa verificarsi la generazione. Per affrontare questo problema, proponiamo l'Embedded Representation Warmup (ERW), un framework plug-and-play in cui, nella prima fase, il modulo ERW funge da riscaldamento che inizializza i livelli iniziali del modello di diffusione con rappresentazioni pre-addestrate di alta qualità. Questo riscaldamento minimizza il carico di apprendere rappresentazioni da zero, accelerando così la convergenza e migliorando le prestazioni. La nostra analisi teorica dimostra che l'efficacia di ERW dipende dalla sua integrazione precisa in specifici strati della rete neurale — denominati regione di elaborazione delle rappresentazioni — dove il modello elabora e trasforma principalmente le rappresentazioni delle feature per la successiva generazione. Stabiliamo inoltre che ERW non solo accelera la convergenza dell'addestramento, ma migliora anche la qualità delle rappresentazioni: empiricamente, il nostro metodo raggiunge un'accelerazione di 40 volte nella velocità di addestramento rispetto a REPA, gli attuali metodi all'avanguardia. Il codice è disponibile all'indirizzo https://github.com/LINs-lab/ERW.
English
Diffusion models excel at generating high-dimensional data but fall short in
training efficiency and representation quality compared to self-supervised
methods. We identify a key bottleneck: the underutilization of high-quality,
semantically rich representations during training notably slows down
convergence. Our systematic analysis reveals a critical representation
processing region -- primarily in the early layers -- where semantic and
structural pattern learning takes place before generation can occur. To address
this, we propose Embedded Representation Warmup (ERW), a plug-and-play
framework where in the first stage we get the ERW module serves as a warmup
that initializes the early layers of the diffusion model with high-quality,
pretrained representations. This warmup minimizes the burden of learning
representations from scratch, thereby accelerating convergence and boosting
performance. Our theoretical analysis demonstrates that ERW's efficacy depends
on its precise integration into specific neural network layers -- termed the
representation processing region -- where the model primarily processes and
transforms feature representations for later generation. We further establish
that ERW not only accelerates training convergence but also enhances
representation quality: empirically, our method achieves a 40times
acceleration in training speed compared to REPA, the current state-of-the-art
methods. Code is available at https://github.com/LINs-lab/ERW.Summary
AI-Generated Summary