ChatPaper.aiChatPaper

X-Prompt: 자기 회귀식 비전 언어 기반 모델에서의 범용 인-컨텍스트 이미지 생성을 향하여

X-Prompt: Towards Universal In-Context Image Generation in Auto-Regressive Vision Language Foundation Models

December 2, 2024
저자: Zeyi Sun, Ziyang Chu, Pan Zhang, Tong Wu, Xiaoyi Dong, Yuhang Zang, Yuanjun Xiong, Dahua Lin, Jiaqi Wang
cs.AI

초록

컨텍스트 내 생성은 대형 언어 모델의 (LLM) 오픈 태스크 일반화 능력의 핵심 구성 요소입니다. 몇 가지 예시를 컨텍스트로 활용함으로써, LLM은 도메인 내 및 도메인 외 태스크를 수행할 수 있습니다. LLM을 기반으로 한 자동 회귀식 비전-언어 모델 (VLM)의 최근 발전은 텍스트에서 이미지로의 생성 작업에서 인상적인 성능을 보여주었습니다. 그러나 일반 이미지 생성 태스크에 대한 컨텍스트 학습의 잠재력은 크게 탐구되지 않았습니다. 이를 해결하기 위해 우리는 X-Prompt를 소개합니다. 이는 순수 자동 회귀식 대형 비전-언어 모델로, 통합된 컨텍스트 학습 프레임워크 내에서 보이는 이미지 생성 태스크와 이전에 본 적 없는 이미지 생성 태스크에 걸쳐 경쟁력 있는 성능을 제공하도록 설계되었습니다. X-Prompt는 효율적으로 가치 있는 특징을 컨텍스트 예시로부터 압축하는 특수 설계를 통합하여, 보다 긴 컨텍스트 토큰 시퀀스를 지원하고 이전에 본 적 없는 태스크에 대한 일반화 능력을 향상시킵니다. 텍스트 및 이미지 예측을 위한 통합된 훈련 태스크는 X-Prompt가 컨텍스트 예시로부터의 향상된 태스크 인식을 갖추고 일반 이미지 생성을 처리할 수 있도록 합니다. 포괄적인 실험은 모델의 다양한 이미지 생성 태스크에서의 성능과 이전에 본 적 없는 태스크에 대한 일반화 능력을 검증합니다.
English
In-context generation is a key component of large language models' (LLMs) open-task generalization capability. By leveraging a few examples as context, LLMs can perform both in-domain and out-of-domain tasks. Recent advancements in auto-regressive vision-language models (VLMs) built upon LLMs have showcased impressive performance in text-to-image generation. However, the potential of in-context learning for general image generation tasks remains largely unexplored. To address this, we introduce X-Prompt, a purely auto-regressive large-vision language model designed to deliver competitive performance across a wide range of both seen and unseen image generation tasks, all within a unified in-context learning framework. X-Prompt incorporates a specialized design that efficiently compresses valuable features from in-context examples, supporting longer in-context token sequences and improving its ability to generalize to unseen tasks. A unified training task for both text and image prediction enables X-Prompt to handle general image generation with enhanced task awareness from in-context examples. Extensive experiments validate the model's performance across diverse seen image generation tasks and its capacity to generalize to previously unseen tasks.

Summary

AI-Generated Summary

PDF652December 3, 2024