Äquivariantes Bildmodellieren
Equivariant Image Modeling
March 24, 2025
Autoren: Ruixiao Dong, Mengde Xu, Zigang Geng, Li Li, Han Hu, Shuyang Gu
cs.AI
Zusammenfassung
Aktuelle generative Modelle, wie autoregressive und Diffusionsansätze, zerlegen das Lernen hochdimensionaler Datenverteilungen in eine Reihe einfacherer Teilaufgaben. Allerdings entstehen inhärente Konflikte bei der gemeinsamen Optimierung dieser Teilaufgaben, und bestehende Lösungen scheitern daran, diese Konflikte zu lösen, ohne Effizienz oder Skalierbarkeit zu opfern. Wir schlagen ein neuartiges äquivariantes Bildmodellierungsframework vor, das die Optimierungsziele über Teilaufgaben hinweg durch die Nutzung der Translationsinvarianz natürlicher visueller Signale inhärent ausrichtet. Unsere Methode führt (1) spaltenweise Tokenisierung ein, die die Translationssymmetrie entlang der horizontalen Achse verbessert, und (2) fensterbasierte kausale Aufmerksamkeit, die konsistente kontextuelle Beziehungen über Positionen hinweg erzwingt. Bei der Bewertung der klassenbedingten ImageNet-Generierung mit einer Auflösung von 256x256 erreicht unser Ansatz eine Leistung, die mit modernsten AR-Modellen vergleichbar ist, während weniger Rechenressourcen verwendet werden. Systematische Analysen zeigen, dass verbesserte Äquivarianz intertask-Konflikte reduziert, was die Zero-Shot-Generalisierung signifikant verbessert und die Synthese ultra-langer Bilder ermöglicht. Diese Arbeit etabliert das erste Framework für aufgabenausgerichtete Zerlegung in der generativen Modellierung und bietet Einblicke in effiziente Parameterfreigabe und konfliktfreie Optimierung. Der Code und die Modelle sind öffentlich unter https://github.com/drx-code/EquivariantModeling verfügbar.
English
Current generative models, such as autoregressive and diffusion approaches,
decompose high-dimensional data distribution learning into a series of simpler
subtasks. However, inherent conflicts arise during the joint optimization of
these subtasks, and existing solutions fail to resolve such conflicts without
sacrificing efficiency or scalability. We propose a novel equivariant image
modeling framework that inherently aligns optimization targets across subtasks
by leveraging the translation invariance of natural visual signals. Our method
introduces (1) column-wise tokenization which enhances translational symmetry
along the horizontal axis, and (2) windowed causal attention which enforces
consistent contextual relationships across positions. Evaluated on
class-conditioned ImageNet generation at 256x256 resolution, our approach
achieves performance comparable to state-of-the-art AR models while using fewer
computational resources. Systematic analysis demonstrates that enhanced
equivariance reduces inter-task conflicts, significantly improving zero-shot
generalization and enabling ultra-long image synthesis. This work establishes
the first framework for task-aligned decomposition in generative modeling,
offering insights into efficient parameter sharing and conflict-free
optimization. The code and models are publicly available at
https://github.com/drx-code/EquivariantModeling.Summary
AI-Generated Summary