X-Prompt: Verso la Generazione Universale di Immagini in Contesto nei Modelli Fondamentali di Visione e Linguaggio Auto-Regressivi
X-Prompt: Towards Universal In-Context Image Generation in Auto-Regressive Vision Language Foundation Models
December 2, 2024
Autori: Zeyi Sun, Ziyang Chu, Pan Zhang, Tong Wu, Xiaoyi Dong, Yuhang Zang, Yuanjun Xiong, Dahua Lin, Jiaqi Wang
cs.AI
Abstract
La generazione in contesto è un componente chiave della capacità di generalizzazione delle attività aperte dei grandi modelli linguistici (LLM). Sfruttando alcuni esempi come contesto, i LLM possono eseguire compiti sia all'interno che all'esterno del dominio. I recenti progressi nei modelli visione-linguaggio auto-regressivi (VLM) sviluppati sui LLM hanno mostrato prestazioni impressionanti nella generazione testo-immagine. Tuttavia, il potenziale dell'apprendimento in contesto per i compiti generali di generazione di immagini rimane in gran parte inesplorato. Per affrontare questo problema, presentiamo X-Prompt, un grande modello linguistico per la visione progettato per offrire prestazioni competitive su una vasta gamma di compiti di generazione di immagini sia visti che non visti, il tutto all'interno di un framework unificato di apprendimento in contesto. X-Prompt incorpora un design specializzato che comprime efficientemente le caratteristiche preziose dagli esempi in contesto, supportando sequenze di token in contesto più lunghe e migliorando la sua capacità di generalizzare a compiti non visti. Un compito di addestramento unificato per la previsione sia del testo che dell'immagine consente a X-Prompt di gestire la generazione di immagini generale con una consapevolezza del compito migliorata dagli esempi in contesto. Estesi esperimenti convalidano le prestazioni del modello su diversi compiti di generazione di immagini visti e la sua capacità di generalizzare a compiti precedentemente non visti.
English
In-context generation is a key component of large language models' (LLMs)
open-task generalization capability. By leveraging a few examples as context,
LLMs can perform both in-domain and out-of-domain tasks. Recent advancements in
auto-regressive vision-language models (VLMs) built upon LLMs have showcased
impressive performance in text-to-image generation. However, the potential of
in-context learning for general image generation tasks remains largely
unexplored. To address this, we introduce X-Prompt, a purely auto-regressive
large-vision language model designed to deliver competitive performance across
a wide range of both seen and unseen image generation tasks, all within a
unified in-context learning framework. X-Prompt incorporates a specialized
design that efficiently compresses valuable features from in-context examples,
supporting longer in-context token sequences and improving its ability to
generalize to unseen tasks. A unified training task for both text and image
prediction enables X-Prompt to handle general image generation with enhanced
task awareness from in-context examples. Extensive experiments validate the
model's performance across diverse seen image generation tasks and its capacity
to generalize to previously unseen tasks.Summary
AI-Generated Summary