Modellazione di Immagini Equivariante

Abstract

I modelli generativi attuali, come gli approcci autoregressivi e di diffusione, scompongono l'apprendimento della distribuzione di dati ad alta dimensionalità in una serie di sottotask più semplici. Tuttavia, sorgono conflitti intrinseci durante l'ottimizzazione congiunta di questi sottotask, e le soluzioni esistenti non riescono a risolvere tali conflitti senza sacrificare l'efficienza o la scalabilità. Proponiamo un nuovo framework di modellazione di immagini equivariante che allinea intrinsecamente gli obiettivi di ottimizzazione tra i sottotask sfruttando l'invarianza traslazionale dei segnali visivi naturali. Il nostro metodo introduce (1) una tokenizzazione per colonne che migliora la simmetria traslazionale lungo l'asse orizzontale, e (2) un'attenzione causale a finestre che impone relazioni contestuali coerenti tra le posizioni. Valutato sulla generazione di immagini condizionata a classi su ImageNet a risoluzione 256x256, il nostro approccio raggiunge prestazioni comparabili ai migliori modelli AR utilizzando meno risorse computazionali. L'analisi sistematica dimostra che una maggiore equivarianza riduce i conflitti inter-task, migliorando significativamente la generalizzazione zero-shot e abilitando la sintesi di immagini ultra-lunghe. Questo lavoro stabilisce il primo framework per la scomposizione allineata ai task nella modellazione generativa, offrendo approfondimenti sulla condivisione efficiente dei parametri e sull'ottimizzazione priva di conflitti. Il codice e i modelli sono disponibili pubblicamente all'indirizzo https://github.com/drx-code/EquivariantModeling.

English

Current generative models, such as autoregressive and diffusion approaches, decompose high-dimensional data distribution learning into a series of simpler subtasks. However, inherent conflicts arise during the joint optimization of these subtasks, and existing solutions fail to resolve such conflicts without sacrificing efficiency or scalability. We propose a novel equivariant image modeling framework that inherently aligns optimization targets across subtasks by leveraging the translation invariance of natural visual signals. Our method introduces (1) column-wise tokenization which enhances translational symmetry along the horizontal axis, and (2) windowed causal attention which enforces consistent contextual relationships across positions. Evaluated on class-conditioned ImageNet generation at 256x256 resolution, our approach achieves performance comparable to state-of-the-art AR models while using fewer computational resources. Systematic analysis demonstrates that enhanced equivariance reduces inter-task conflicts, significantly improving zero-shot generalization and enabling ultra-long image synthesis. This work establishes the first framework for task-aligned decomposition in generative modeling, offering insights into efficient parameter sharing and conflict-free optimization. The code and models are publicly available at https://github.com/drx-code/EquivariantModeling.

Modellazione di Immagini Equivariante

Equivariant Image Modeling

Abstract

Summary

Support

Support