ChatPaper.aiChatPaper

Verbesserung der autoregressiven Bildgenerierung durch grob-zu-feine Token-Vorhersage

Improving Autoregressive Image Generation through Coarse-to-Fine Token Prediction

March 20, 2025
Autoren: Ziyao Guo, Kaipeng Zhang, Michael Qizhe Shieh
cs.AI

Zusammenfassung

Autoregressive Modelle haben bemerkenswerte Erfolge in der Bildgenerierung erzielt, indem sie sequenzielle Vorhersagetechniken aus dem Sprachmodellierungskontext adaptiert haben. Die Anwendung dieser Ansätze auf Bilder erfordert jedoch die Diskretisierung kontinuierlicher Pixeldaten durch Vektorisierungsmethoden wie VQ-VAE. Um die Quantisierungsfehler, die in VQ-VAE bestehen, zu verringern, neigen aktuelle Arbeiten dazu, größere Codebücher zu verwenden. Dies führt jedoch zu einer entsprechenden Vergrößerung des Vokabulars, was die autoregressive Modellierung erschwert. Ziel dieses Papiers ist es, einen Weg zu finden, die Vorteile großer Codebücher zu nutzen, ohne die autoregressive Modellierung zu erschweren. Durch empirische Untersuchungen entdecken wir, dass Token mit ähnlichen Codewort-Darstellungen ähnliche Effekte auf das final generierte Bild haben, was eine signifikante Redundanz in großen Codebüchern offenbart. Basierend auf dieser Erkenntnis schlagen wir vor, Token von grob zu fein (CTF) vorherzusagen, indem ähnlichen Token das gleiche grobe Label zugewiesen wird. Unser Framework besteht aus zwei Stufen: (1) einem autoregressiven Modell, das sequenziell grobe Labels für jedes Token in der Sequenz vorhersagt, und (2) einem Hilfsmodell, das gleichzeitig feingranulare Labels für alle Token unter Berücksichtigung ihrer groben Labels vorhersagt. Experimente auf ImageNet demonstrieren die überlegene Leistung unserer Methode, die eine durchschnittliche Verbesserung von 59 Punkten im Inception Score im Vergleich zu den Baselines erzielt. Bemerkenswert ist, dass unser Ansatz trotz eines zusätzlichen Inferenzschritts schnellere Sampling-Geschwindigkeiten erreicht.
English
Autoregressive models have shown remarkable success in image generation by adapting sequential prediction techniques from language modeling. However, applying these approaches to images requires discretizing continuous pixel data through vector quantization methods like VQ-VAE. To alleviate the quantization errors that existed in VQ-VAE, recent works tend to use larger codebooks. However, this will accordingly expand vocabulary size, complicating the autoregressive modeling task. This paper aims to find a way to enjoy the benefits of large codebooks without making autoregressive modeling more difficult. Through empirical investigation, we discover that tokens with similar codeword representations produce similar effects on the final generated image, revealing significant redundancy in large codebooks. Based on this insight, we propose to predict tokens from coarse to fine (CTF), realized by assigning the same coarse label for similar tokens. Our framework consists of two stages: (1) an autoregressive model that sequentially predicts coarse labels for each token in the sequence, and (2) an auxiliary model that simultaneously predicts fine-grained labels for all tokens conditioned on their coarse labels. Experiments on ImageNet demonstrate our method's superior performance, achieving an average improvement of 59 points in Inception Score compared to baselines. Notably, despite adding an inference step, our approach achieves faster sampling speeds.

Summary

AI-Generated Summary

PDF82March 21, 2025