La decodifica collaborativa rende efficiente la modellazione auto-regressiva visuale.
Collaborative Decoding Makes Visual Auto-Regressive Modeling Efficient
November 26, 2024
Autori: Zigeng Chen, Xinyin Ma, Gongfan Fang, Xinchao Wang
cs.AI
Abstract
Nel campo in rapida evoluzione della generazione di immagini, la modellazione Auto-Regressiva Visuale (VAR) ha attirato notevole attenzione per il suo innovativo approccio predittivo su scala successiva. Questo paradigma offre significativi miglioramenti in efficienza, scalabilità e generalizzazione senza esempi. Tuttavia, la natura intrinsecamente grossolana a fine di VAR introduce una sequenza prolungata di token, portando a un consumo di memoria proibitivo e a ridondanze computazionali. Per affrontare questi ostacoli, proponiamo il Decodifica Collaborativa (CoDe), una nuova strategia di decodifica efficiente su misura per il framework VAR. CoDe si basa su due osservazioni critiche: le notevoli riduzioni delle richieste di parametri a scale più grandi e i modelli esclusivi di generazione attraverso diverse scale. Sfruttando questi approfondimenti, suddividiamo il processo di inferenza multi-scala in una collaborazione senza soluzione di continuità tra un modello grande e uno piccolo. Il modello grande funge da 'progettista', specializzandosi nella generazione di contenuti a bassa frequenza a scale minori, mentre il modello più piccolo funge da 'raffinatore', concentrato esclusivamente sulla previsione di dettagli ad alta frequenza a scale maggiori. Questa collaborazione garantisce un'efficienza notevole con un impatto minimo sulla qualità: CoDe ottiene un aumento di velocità del 1,7x, riduce l'uso della memoria di circa il 50% e conserva la qualità dell'immagine con solo un aumento trascurabile del FID da 1,95 a 1,98. Riducendo ulteriormente i passaggi di progettazione, CoDe può raggiungere un impressionante rapporto di accelerazione del 2,9x, raggiungendo 41 immagini/s a una risoluzione di 256x256 su una singola GPU NVIDIA 4090, mantenendo un FID apprezzabile di 2,27. Il codice è disponibile su https://github.com/czg1225/CoDe
English
In the rapidly advancing field of image generation, Visual Auto-Regressive
(VAR) modeling has garnered considerable attention for its innovative
next-scale prediction approach. This paradigm offers substantial improvements
in efficiency, scalability, and zero-shot generalization. Yet, the inherently
coarse-to-fine nature of VAR introduces a prolonged token sequence, leading to
prohibitive memory consumption and computational redundancies. To address these
bottlenecks, we propose Collaborative Decoding (CoDe), a novel efficient
decoding strategy tailored for the VAR framework. CoDe capitalizes on two
critical observations: the substantially reduced parameter demands at larger
scales and the exclusive generation patterns across different scales. Based on
these insights, we partition the multi-scale inference process into a seamless
collaboration between a large model and a small model. The large model serves
as the 'drafter', specializing in generating low-frequency content at smaller
scales, while the smaller model serves as the 'refiner', solely focusing on
predicting high-frequency details at larger scales. This collaboration yields
remarkable efficiency with minimal impact on quality: CoDe achieves a 1.7x
speedup, slashes memory usage by around 50%, and preserves image quality with
only a negligible FID increase from 1.95 to 1.98. When drafting steps are
further decreased, CoDe can achieve an impressive 2.9x acceleration ratio,
reaching 41 images/s at 256x256 resolution on a single NVIDIA 4090 GPU, while
preserving a commendable FID of 2.27. The code is available at
https://github.com/czg1225/CoDeSummary
AI-Generated Summary