Äquivariantes Bildmodellieren

Zusammenfassung

Aktuelle generative Modelle, wie autoregressive und Diffusionsansätze, zerlegen das Lernen hochdimensionaler Datenverteilungen in eine Reihe einfacherer Teilaufgaben. Allerdings entstehen inhärente Konflikte bei der gemeinsamen Optimierung dieser Teilaufgaben, und bestehende Lösungen scheitern daran, diese Konflikte zu lösen, ohne Effizienz oder Skalierbarkeit zu opfern. Wir schlagen ein neuartiges äquivariantes Bildmodellierungsframework vor, das die Optimierungsziele über Teilaufgaben hinweg durch die Nutzung der Translationsinvarianz natürlicher visueller Signale inhärent ausrichtet. Unsere Methode führt (1) spaltenweise Tokenisierung ein, die die Translationssymmetrie entlang der horizontalen Achse verbessert, und (2) fensterbasierte kausale Aufmerksamkeit, die konsistente kontextuelle Beziehungen über Positionen hinweg erzwingt. Bei der Bewertung der klassenbedingten ImageNet-Generierung mit einer Auflösung von 256x256 erreicht unser Ansatz eine Leistung, die mit modernsten AR-Modellen vergleichbar ist, während weniger Rechenressourcen verwendet werden. Systematische Analysen zeigen, dass verbesserte Äquivarianz intertask-Konflikte reduziert, was die Zero-Shot-Generalisierung signifikant verbessert und die Synthese ultra-langer Bilder ermöglicht. Diese Arbeit etabliert das erste Framework für aufgabenausgerichtete Zerlegung in der generativen Modellierung und bietet Einblicke in effiziente Parameterfreigabe und konfliktfreie Optimierung. Der Code und die Modelle sind öffentlich unter https://github.com/drx-code/EquivariantModeling verfügbar.

English

Current generative models, such as autoregressive and diffusion approaches, decompose high-dimensional data distribution learning into a series of simpler subtasks. However, inherent conflicts arise during the joint optimization of these subtasks, and existing solutions fail to resolve such conflicts without sacrificing efficiency or scalability. We propose a novel equivariant image modeling framework that inherently aligns optimization targets across subtasks by leveraging the translation invariance of natural visual signals. Our method introduces (1) column-wise tokenization which enhances translational symmetry along the horizontal axis, and (2) windowed causal attention which enforces consistent contextual relationships across positions. Evaluated on class-conditioned ImageNet generation at 256x256 resolution, our approach achieves performance comparable to state-of-the-art AR models while using fewer computational resources. Systematic analysis demonstrates that enhanced equivariance reduces inter-task conflicts, significantly improving zero-shot generalization and enabling ultra-long image synthesis. This work establishes the first framework for task-aligned decomposition in generative modeling, offering insights into efficient parameter sharing and conflict-free optimization. The code and models are publicly available at https://github.com/drx-code/EquivariantModeling.

Äquivariantes Bildmodellieren

Equivariant Image Modeling

Zusammenfassung

Summary

Support