VisualCloze: Un Framework Universale per la Generazione di Immagini tramite Apprendimento Visivo in Contesto
VisualCloze: A Universal Image Generation Framework via Visual In-Context Learning
April 10, 2025
Autori: Zhong-Yu Li, Ruoyi Du, Juncheng Yan, Le Zhuo, Zhen Li, Peng Gao, Zhanyu Ma, Ming-Ming Cheng
cs.AI
Abstract
I recenti progressi nei modelli di diffusione hanno significativamente avanzato vari compiti di generazione di immagini. Tuttavia, l'approccio principale attuale rimane focalizzato sulla costruzione di modelli specifici per compiti, che hanno un'efficienza limitata nel supportare un'ampia gamma di esigenze diverse. Mentre i modelli universali cercano di affrontare questa limitazione, si trovano di fronte a sfide critiche, tra cui l'istruzione generalizzabile dei compiti, le distribuzioni appropriate dei compiti e il design architetturale unificato. Per affrontare queste sfide, proponiamo VisualCloze, un framework universale per la generazione di immagini, che supporta un'ampia gamma di compiti in dominio, la generalizzazione a compiti non visti, l'unificazione non vista di più compiti e la generazione inversa. A differenza dei metodi esistenti che si basano su istruzioni di compiti basate sul linguaggio, portando ad ambiguità di compiti e debole generalizzazione, integriamo l'apprendimento visivo in contesto, consentendo ai modelli di identificare i compiti da dimostrazioni visive. Nel frattempo, l'intrinseca sparsità delle distribuzioni di compiti visivi ostacola l'apprendimento di conoscenze trasferibili tra i compiti. A tal fine, introduciamo Graph200K, un dataset strutturato a grafo che stabilisce vari compiti interrelati, migliorando la densità dei compiti e la conoscenza trasferibile. Inoltre, scopriamo che la nostra formulazione unificata della generazione di immagini condivide un obiettivo coerente con il riempimento di immagini, permettendoci di sfruttare i forti prior generativi dei modelli pre-addestrati per il riempimento senza modificare le architetture.
English
Recent progress in diffusion models significantly advances various image
generation tasks. However, the current mainstream approach remains focused on
building task-specific models, which have limited efficiency when supporting a
wide range of different needs. While universal models attempt to address this
limitation, they face critical challenges, including generalizable task
instruction, appropriate task distributions, and unified architectural design.
To tackle these challenges, we propose VisualCloze, a universal image
generation framework, which supports a wide range of in-domain tasks,
generalization to unseen ones, unseen unification of multiple tasks, and
reverse generation. Unlike existing methods that rely on language-based task
instruction, leading to task ambiguity and weak generalization, we integrate
visual in-context learning, allowing models to identify tasks from visual
demonstrations. Meanwhile, the inherent sparsity of visual task distributions
hampers the learning of transferable knowledge across tasks. To this end, we
introduce Graph200K, a graph-structured dataset that establishes various
interrelated tasks, enhancing task density and transferable knowledge.
Furthermore, we uncover that our unified image generation formulation shared a
consistent objective with image infilling, enabling us to leverage the strong
generative priors of pre-trained infilling models without modifying the
architectures.Summary
AI-Generated Summary