Modellazione di Immagini Equivariante
Equivariant Image Modeling
March 24, 2025
Autori: Ruixiao Dong, Mengde Xu, Zigang Geng, Li Li, Han Hu, Shuyang Gu
cs.AI
Abstract
I modelli generativi attuali, come gli approcci autoregressivi e di diffusione, scompongono l'apprendimento della distribuzione di dati ad alta dimensionalità in una serie di sottotask più semplici. Tuttavia, sorgono conflitti intrinseci durante l'ottimizzazione congiunta di questi sottotask, e le soluzioni esistenti non riescono a risolvere tali conflitti senza sacrificare l'efficienza o la scalabilità. Proponiamo un nuovo framework di modellazione di immagini equivariante che allinea intrinsecamente gli obiettivi di ottimizzazione tra i sottotask sfruttando l'invarianza traslazionale dei segnali visivi naturali. Il nostro metodo introduce (1) una tokenizzazione per colonne che migliora la simmetria traslazionale lungo l'asse orizzontale, e (2) un'attenzione causale a finestre che impone relazioni contestuali coerenti tra le posizioni. Valutato sulla generazione di immagini condizionata a classi su ImageNet a risoluzione 256x256, il nostro approccio raggiunge prestazioni comparabili ai migliori modelli AR utilizzando meno risorse computazionali. L'analisi sistematica dimostra che una maggiore equivarianza riduce i conflitti inter-task, migliorando significativamente la generalizzazione zero-shot e abilitando la sintesi di immagini ultra-lunghe. Questo lavoro stabilisce il primo framework per la scomposizione allineata ai task nella modellazione generativa, offrendo approfondimenti sulla condivisione efficiente dei parametri e sull'ottimizzazione priva di conflitti. Il codice e i modelli sono disponibili pubblicamente all'indirizzo https://github.com/drx-code/EquivariantModeling.
English
Current generative models, such as autoregressive and diffusion approaches,
decompose high-dimensional data distribution learning into a series of simpler
subtasks. However, inherent conflicts arise during the joint optimization of
these subtasks, and existing solutions fail to resolve such conflicts without
sacrificing efficiency or scalability. We propose a novel equivariant image
modeling framework that inherently aligns optimization targets across subtasks
by leveraging the translation invariance of natural visual signals. Our method
introduces (1) column-wise tokenization which enhances translational symmetry
along the horizontal axis, and (2) windowed causal attention which enforces
consistent contextual relationships across positions. Evaluated on
class-conditioned ImageNet generation at 256x256 resolution, our approach
achieves performance comparable to state-of-the-art AR models while using fewer
computational resources. Systematic analysis demonstrates that enhanced
equivariance reduces inter-task conflicts, significantly improving zero-shot
generalization and enabling ultra-long image synthesis. This work establishes
the first framework for task-aligned decomposition in generative modeling,
offering insights into efficient parameter sharing and conflict-free
optimization. The code and models are publicly available at
https://github.com/drx-code/EquivariantModeling.Summary
AI-Generated Summary