Autoregressive Bildgenerierung mit randomisierter paralleler Dekodierung
Autoregressive Image Generation with Randomized Parallel Decoding
March 13, 2025
Autoren: Haopeng Li, Jinyue Yang, Guoqi Li, Huan Wang
cs.AI
Zusammenfassung
Wir stellen ARPG vor, ein neuartiges visuelles autoregressives Modell, das eine randomisierte parallele Generierung ermöglicht und damit die inhärenten Einschränkungen konventioneller Rasterordnungsansätze adressiert, die die Inferenzeffizienz und Zero-Shot-Generalisierung aufgrund ihrer sequenziellen, vordefinierten Token-Generierungsreihenfolge behindern. Unsere zentrale Erkenntnis ist, dass eine effektive Modellierung in zufälliger Reihenfolge eine explizite Anleitung zur Bestimmung der Position des nächsten vorhergesagten Tokens erfordert. Zu diesem Zweck schlagen wir ein neuartiges geführtes Decoding-Framework vor, das die Positionsführung von der Inhaltsdarstellung entkoppelt und sie separat als Abfragen und Schlüssel-Wert-Paare kodiert. Durch die direkte Integration dieser Anleitung in den kausalen Aufmerksamkeitsmechanismus ermöglicht unser Ansatz ein vollständig zufälliges Training und eine zufällige Generierung, wodurch die Notwendigkeit einer bidirektionalen Aufmerksamkeit entfällt. Folglich generalisiert ARPG problemlos auf Zero-Shot-Aufgaben wie Bildinpainting, Outpainting und Auflösungserweiterung. Darüber hinaus unterstützt es die parallele Inferenz durch die gleichzeitige Verarbeitung mehrerer Abfragen unter Verwendung eines gemeinsamen KV-Caches. Auf dem ImageNet-1K 256-Benchmark erreicht unser Ansatz einen FID von 1,94 mit nur 64 Sampling-Schritten und erzielt dabei eine mehr als 20-fache Steigerung des Durchsatzes bei gleichzeitiger Reduzierung des Speicherverbrauchs um über 75 % im Vergleich zu repräsentativen aktuellen autoregressiven Modellen ähnlicher Größe.
English
We introduce ARPG, a novel visual autoregressive model that enables
randomized parallel generation, addressing the inherent limitations of
conventional raster-order approaches, which hinder inference efficiency and
zero-shot generalization due to their sequential, predefined token generation
order. Our key insight is that effective random-order modeling necessitates
explicit guidance for determining the position of the next predicted token. To
this end, we propose a novel guided decoding framework that decouples
positional guidance from content representation, encoding them separately as
queries and key-value pairs. By directly incorporating this guidance into the
causal attention mechanism, our approach enables fully random-order training
and generation, eliminating the need for bidirectional attention. Consequently,
ARPG readily generalizes to zero-shot tasks such as image inpainting,
outpainting, and resolution expansion. Furthermore, it supports parallel
inference by concurrently processing multiple queries using a shared KV cache.
On the ImageNet-1K 256 benchmark, our approach attains an FID of 1.94 with only
64 sampling steps, achieving over a 20-fold increase in throughput while
reducing memory consumption by over 75% compared to representative recent
autoregressive models at a similar scale.Summary
AI-Generated Summary