Nachbarschaftsautoregressive Modellierung für effiziente visuelle Generierung
Neighboring Autoregressive Modeling for Efficient Visual Generation
March 12, 2025
Autoren: Yefei He, Yuanyu He, Shaoxuan He, Feng Chen, Hong Zhou, Kaipeng Zhang, Bohan Zhuang
cs.AI
Zusammenfassung
Visuelle autoregressive Modelle folgen typischerweise einem Rasterordnungs-Paradigma der „nächsten Token-Vorhersage“, das die räumliche und zeitliche Lokalität, die visuellen Inhalten innewohnt, außer Acht lässt. Insbesondere weisen visuelle Token deutlich stärkere Korrelationen mit ihren räumlich oder zeitlich benachbarten Token auf als mit solchen, die weiter entfernt sind. In diesem Artikel schlagen wir Neighboring Autoregressive Modeling (NAR) vor, ein neuartiges Paradigma, das die autoregressive visuelle Generierung als einen progressiven Outpainting-Prozess formuliert, der einem „nächste-Nachbar-Vorhersage“-Mechanismus von nah nach fern folgt. Ausgehend von einem initialen Token werden die verbleibenden Token in aufsteigender Reihenfolge ihres Manhattan-Abstands vom initialen Token im räumlich-zeitlichen Raum decodiert, wodurch die Grenze des decodierten Bereichs schrittweise erweitert wird. Um die parallele Vorhersage mehrerer benachbarter Token im räumlich-zeitlichen Raum zu ermöglichen, führen wir eine Reihe von dimensionsorientierten Decodierköpfen ein, von denen jeder das nächste Token entlang einer zueinander orthogonalen Dimension vorhersagt. Während der Inferenz werden alle benachbarten Token der decodierten Token parallel verarbeitet, wodurch die Modellvorwärtsschritte für die Generierung erheblich reduziert werden. Experimente auf ImageNet256×256 und UCF101 zeigen, dass NAR einen 2,4-fachen bzw. 8,6-fachen höheren Durchsatz erreicht und gleichzeitig überlegene FID/FVD-Werte sowohl für Bild- als auch für Videogenerierungsaufgaben im Vergleich zum PAR-4X-Ansatz erzielt. Bei der Bewertung auf dem Text-zu-Bild-Generierungs-Benchmark GenEval übertrifft NAR mit 0,8B Parametern Chameleon-7B, während es lediglich 0,4 der Trainingsdaten verwendet. Der Code ist verfügbar unter https://github.com/ThisisBillhe/NAR.
English
Visual autoregressive models typically adhere to a raster-order ``next-token
prediction" paradigm, which overlooks the spatial and temporal locality
inherent in visual content. Specifically, visual tokens exhibit significantly
stronger correlations with their spatially or temporally adjacent tokens
compared to those that are distant. In this paper, we propose Neighboring
Autoregressive Modeling (NAR), a novel paradigm that formulates autoregressive
visual generation as a progressive outpainting procedure, following a
near-to-far ``next-neighbor prediction" mechanism. Starting from an initial
token, the remaining tokens are decoded in ascending order of their Manhattan
distance from the initial token in the spatial-temporal space, progressively
expanding the boundary of the decoded region. To enable parallel prediction of
multiple adjacent tokens in the spatial-temporal space, we introduce a set of
dimension-oriented decoding heads, each predicting the next token along a
mutually orthogonal dimension. During inference, all tokens adjacent to the
decoded tokens are processed in parallel, substantially reducing the model
forward steps for generation. Experiments on ImageNet256times 256 and UCF101
demonstrate that NAR achieves 2.4times and 8.6times higher throughput
respectively, while obtaining superior FID/FVD scores for both image and video
generation tasks compared to the PAR-4X approach. When evaluating on
text-to-image generation benchmark GenEval, NAR with 0.8B parameters
outperforms Chameleon-7B while using merely 0.4 of the training data. Code is
available at https://github.com/ThisisBillhe/NAR.Summary
AI-Generated Summary