Autoregressive Bildgenerierung mit randomisierter paralleler Dekodierung

Zusammenfassung

Wir stellen ARPG vor, ein neuartiges visuelles autoregressives Modell, das eine randomisierte parallele Generierung ermöglicht und damit die inhärenten Einschränkungen konventioneller Rasterordnungsansätze adressiert, die die Inferenzeffizienz und Zero-Shot-Generalisierung aufgrund ihrer sequenziellen, vordefinierten Token-Generierungsreihenfolge behindern. Unsere zentrale Erkenntnis ist, dass eine effektive Modellierung in zufälliger Reihenfolge eine explizite Anleitung zur Bestimmung der Position des nächsten vorhergesagten Tokens erfordert. Zu diesem Zweck schlagen wir ein neuartiges geführtes Decoding-Framework vor, das die Positionsführung von der Inhaltsdarstellung entkoppelt und sie separat als Abfragen und Schlüssel-Wert-Paare kodiert. Durch die direkte Integration dieser Anleitung in den kausalen Aufmerksamkeitsmechanismus ermöglicht unser Ansatz ein vollständig zufälliges Training und eine zufällige Generierung, wodurch die Notwendigkeit einer bidirektionalen Aufmerksamkeit entfällt. Folglich generalisiert ARPG problemlos auf Zero-Shot-Aufgaben wie Bildinpainting, Outpainting und Auflösungserweiterung. Darüber hinaus unterstützt es die parallele Inferenz durch die gleichzeitige Verarbeitung mehrerer Abfragen unter Verwendung eines gemeinsamen KV-Caches. Auf dem ImageNet-1K 256-Benchmark erreicht unser Ansatz einen FID von 1,94 mit nur 64 Sampling-Schritten und erzielt dabei eine mehr als 20-fache Steigerung des Durchsatzes bei gleichzeitiger Reduzierung des Speicherverbrauchs um über 75 % im Vergleich zu repräsentativen aktuellen autoregressiven Modellen ähnlicher Größe.

English

We introduce ARPG, a novel visual autoregressive model that enables randomized parallel generation, addressing the inherent limitations of conventional raster-order approaches, which hinder inference efficiency and zero-shot generalization due to their sequential, predefined token generation order. Our key insight is that effective random-order modeling necessitates explicit guidance for determining the position of the next predicted token. To this end, we propose a novel guided decoding framework that decouples positional guidance from content representation, encoding them separately as queries and key-value pairs. By directly incorporating this guidance into the causal attention mechanism, our approach enables fully random-order training and generation, eliminating the need for bidirectional attention. Consequently, ARPG readily generalizes to zero-shot tasks such as image inpainting, outpainting, and resolution expansion. Furthermore, it supports parallel inference by concurrently processing multiple queries using a shared KV cache. On the ImageNet-1K 256 benchmark, our approach attains an FID of 1.94 with only 64 sampling steps, achieving over a 20-fold increase in throughput while reducing memory consumption by over 75% compared to representative recent autoregressive models at a similar scale.

Autoregressive Bildgenerierung mit randomisierter paralleler Dekodierung

Autoregressive Image Generation with Randomized Parallel Decoding

Zusammenfassung

Summary

Support

Support