Nachbarschaftsautoregressive Modellierung für effiziente visuelle Generierung

Zusammenfassung

Visuelle autoregressive Modelle folgen typischerweise einem Rasterordnungs-Paradigma der „nächsten Token-Vorhersage“, das die räumliche und zeitliche Lokalität, die visuellen Inhalten innewohnt, außer Acht lässt. Insbesondere weisen visuelle Token deutlich stärkere Korrelationen mit ihren räumlich oder zeitlich benachbarten Token auf als mit solchen, die weiter entfernt sind. In diesem Artikel schlagen wir Neighboring Autoregressive Modeling (NAR) vor, ein neuartiges Paradigma, das die autoregressive visuelle Generierung als einen progressiven Outpainting-Prozess formuliert, der einem „nächste-Nachbar-Vorhersage“-Mechanismus von nah nach fern folgt. Ausgehend von einem initialen Token werden die verbleibenden Token in aufsteigender Reihenfolge ihres Manhattan-Abstands vom initialen Token im räumlich-zeitlichen Raum decodiert, wodurch die Grenze des decodierten Bereichs schrittweise erweitert wird. Um die parallele Vorhersage mehrerer benachbarter Token im räumlich-zeitlichen Raum zu ermöglichen, führen wir eine Reihe von dimensionsorientierten Decodierköpfen ein, von denen jeder das nächste Token entlang einer zueinander orthogonalen Dimension vorhersagt. Während der Inferenz werden alle benachbarten Token der decodierten Token parallel verarbeitet, wodurch die Modellvorwärtsschritte für die Generierung erheblich reduziert werden. Experimente auf ImageNet256×256 und UCF101 zeigen, dass NAR einen 2,4-fachen bzw. 8,6-fachen höheren Durchsatz erreicht und gleichzeitig überlegene FID/FVD-Werte sowohl für Bild- als auch für Videogenerierungsaufgaben im Vergleich zum PAR-4X-Ansatz erzielt. Bei der Bewertung auf dem Text-zu-Bild-Generierungs-Benchmark GenEval übertrifft NAR mit 0,8B Parametern Chameleon-7B, während es lediglich 0,4 der Trainingsdaten verwendet. Der Code ist verfügbar unter https://github.com/ThisisBillhe/NAR.

English

Visual autoregressive models typically adhere to a raster-order ``next-token prediction" paradigm, which overlooks the spatial and temporal locality inherent in visual content. Specifically, visual tokens exhibit significantly stronger correlations with their spatially or temporally adjacent tokens compared to those that are distant. In this paper, we propose Neighboring Autoregressive Modeling (NAR), a novel paradigm that formulates autoregressive visual generation as a progressive outpainting procedure, following a near-to-far ``next-neighbor prediction" mechanism. Starting from an initial token, the remaining tokens are decoded in ascending order of their Manhattan distance from the initial token in the spatial-temporal space, progressively expanding the boundary of the decoded region. To enable parallel prediction of multiple adjacent tokens in the spatial-temporal space, we introduce a set of dimension-oriented decoding heads, each predicting the next token along a mutually orthogonal dimension. During inference, all tokens adjacent to the decoded tokens are processed in parallel, substantially reducing the model forward steps for generation. Experiments on ImageNet256times 256 and UCF101 demonstrate that NAR achieves 2.4times and 8.6times higher throughput respectively, while obtaining superior FID/FVD scores for both image and video generation tasks compared to the PAR-4X approach. When evaluating on text-to-image generation benchmark GenEval, NAR with 0.8B parameters outperforms Chameleon-7B while using merely 0.4 of the training data. Code is available at https://github.com/ThisisBillhe/NAR.

Nachbarschaftsautoregressive Modellierung für effiziente visuelle Generierung

Neighboring Autoregressive Modeling for Efficient Visual Generation

Zusammenfassung

Summary

Support

Support