Kollaboratives Decodieren macht visuelle autoregressive Modellierung effizient.

Collaborative Decoding Makes Visual Auto-Regressive Modeling Efficient

November 26, 2024
Autoren: Zigeng Chen, Xinyin Ma, Gongfan Fang, Xinchao Wang
cs.AI

Zusammenfassung

Im schnell voranschreitenden Bereich der Bildgenerierung hat das Visual Auto-Regressive (VAR) Modell erhebliche Aufmerksamkeit für seinen innovativen Ansatz zur Vorhersage auf der nächsten Skalenebene erhalten. Dieses Paradigma bietet wesentliche Verbesserungen in Effizienz, Skalierbarkeit und Zero-Shot-Generalisierung. Dennoch führt die von Natur aus grob-zu-fein strukturierte VAR-Natur zu einer verlängerten Token-Sequenz, die zu prohibitivem Speicherverbrauch und Rechenüberfluss führt. Um diese Engpässe zu bewältigen, schlagen wir Collaborative Decoding (CoDe) vor, eine neuartige effiziente Dekodierstrategie, die speziell für das VAR-Framework entwickelt wurde. CoDe nutzt zwei entscheidende Beobachtungen: die wesentlich reduzierten Parameteranforderungen bei größeren Skalen und die exklusiven Generierungsmuster über verschiedene Skalen hinweg. Basierend auf diesen Erkenntnissen unterteilen wir den Multi-Skalen-Inferenzprozess in eine nahtlose Zusammenarbeit zwischen einem großen Modell und einem kleinen Modell. Das große Modell fungiert als 'Entwurfsmodell', das sich auf die Generierung von Inhalten mit niedriger Frequenz in kleineren Skalen spezialisiert, während das kleinere Modell als 'Verfeinerungsmodell' dient und sich ausschließlich auf die Vorhersage von Details mit hoher Frequenz in größeren Skalen konzentriert. Diese Zusammenarbeit führt zu bemerkenswerter Effizienz bei minimalem Qualitätsverlust: CoDe erreicht eine Beschleunigung um das 1,7-fache, reduziert den Speicherverbrauch um etwa 50% und bewahrt die Bildqualität mit nur einer vernachlässigbaren FID-Erhöhung von 1,95 auf 1,98. Durch weitere Verringerung der Entwurfschritte kann CoDe ein beeindruckendes Beschleunigungsverhältnis von 2,9 erreichen, was 41 Bilder/s bei einer Auflösung von 256x256 auf einer einzelnen NVIDIA 4090 GPU entspricht, während eine lobenswerte FID von 2,27 beibehalten wird. Der Code ist verfügbar unter https://github.com/czg1225/CoDe
English
In the rapidly advancing field of image generation, Visual Auto-Regressive (VAR) modeling has garnered considerable attention for its innovative next-scale prediction approach. This paradigm offers substantial improvements in efficiency, scalability, and zero-shot generalization. Yet, the inherently coarse-to-fine nature of VAR introduces a prolonged token sequence, leading to prohibitive memory consumption and computational redundancies. To address these bottlenecks, we propose Collaborative Decoding (CoDe), a novel efficient decoding strategy tailored for the VAR framework. CoDe capitalizes on two critical observations: the substantially reduced parameter demands at larger scales and the exclusive generation patterns across different scales. Based on these insights, we partition the multi-scale inference process into a seamless collaboration between a large model and a small model. The large model serves as the 'drafter', specializing in generating low-frequency content at smaller scales, while the smaller model serves as the 'refiner', solely focusing on predicting high-frequency details at larger scales. This collaboration yields remarkable efficiency with minimal impact on quality: CoDe achieves a 1.7x speedup, slashes memory usage by around 50%, and preserves image quality with only a negligible FID increase from 1.95 to 1.98. When drafting steps are further decreased, CoDe can achieve an impressive 2.9x acceleration ratio, reaching 41 images/s at 256x256 resolution on a single NVIDIA 4090 GPU, while preserving a commendable FID of 2.27. The code is available at https://github.com/czg1225/CoDe

Summary

AI-Generated Summary

PDF122November 28, 2024