VisualCloze: Un Framework Universale per la Generazione di Immagini tramite Apprendimento Visivo in Contesto

Abstract

I recenti progressi nei modelli di diffusione hanno significativamente avanzato vari compiti di generazione di immagini. Tuttavia, l'approccio principale attuale rimane focalizzato sulla costruzione di modelli specifici per compiti, che hanno un'efficienza limitata nel supportare un'ampia gamma di esigenze diverse. Mentre i modelli universali cercano di affrontare questa limitazione, si trovano di fronte a sfide critiche, tra cui l'istruzione generalizzabile dei compiti, le distribuzioni appropriate dei compiti e il design architetturale unificato. Per affrontare queste sfide, proponiamo VisualCloze, un framework universale per la generazione di immagini, che supporta un'ampia gamma di compiti in dominio, la generalizzazione a compiti non visti, l'unificazione non vista di più compiti e la generazione inversa. A differenza dei metodi esistenti che si basano su istruzioni di compiti basate sul linguaggio, portando ad ambiguità di compiti e debole generalizzazione, integriamo l'apprendimento visivo in contesto, consentendo ai modelli di identificare i compiti da dimostrazioni visive. Nel frattempo, l'intrinseca sparsità delle distribuzioni di compiti visivi ostacola l'apprendimento di conoscenze trasferibili tra i compiti. A tal fine, introduciamo Graph200K, un dataset strutturato a grafo che stabilisce vari compiti interrelati, migliorando la densità dei compiti e la conoscenza trasferibile. Inoltre, scopriamo che la nostra formulazione unificata della generazione di immagini condivide un obiettivo coerente con il riempimento di immagini, permettendoci di sfruttare i forti prior generativi dei modelli pre-addestrati per il riempimento senza modificare le architetture.

English

Recent progress in diffusion models significantly advances various image generation tasks. However, the current mainstream approach remains focused on building task-specific models, which have limited efficiency when supporting a wide range of different needs. While universal models attempt to address this limitation, they face critical challenges, including generalizable task instruction, appropriate task distributions, and unified architectural design. To tackle these challenges, we propose VisualCloze, a universal image generation framework, which supports a wide range of in-domain tasks, generalization to unseen ones, unseen unification of multiple tasks, and reverse generation. Unlike existing methods that rely on language-based task instruction, leading to task ambiguity and weak generalization, we integrate visual in-context learning, allowing models to identify tasks from visual demonstrations. Meanwhile, the inherent sparsity of visual task distributions hampers the learning of transferable knowledge across tasks. To this end, we introduce Graph200K, a graph-structured dataset that establishes various interrelated tasks, enhancing task density and transferable knowledge. Furthermore, we uncover that our unified image generation formulation shared a consistent objective with image infilling, enabling us to leverage the strong generative priors of pre-trained infilling models without modifying the architectures.

VisualCloze: Un Framework Universale per la Generazione di Immagini tramite Apprendimento Visivo in Contesto

VisualCloze: A Universal Image Generation Framework via Visual In-Context Learning

Abstract

Summary

Support

Support