ChatPaper.aiChatPaper

ACE: 확산을 통해 지시에 따라 작성 및 편집하는 올라운드 크리에이터 및 편집기_TRANSFORMER

ACE: All-round Creator and Editor Following Instructions via Diffusion Transformer

September 30, 2024
저자: Zhen Han, Zeyinzi Jiang, Yulin Pan, Jingfeng Zhang, Chaojie Mao, Chenwei Xie, Yu Liu, Jingren Zhou
cs.AI

초록

확산 모델은 강력한 생성 기술로 등장하여 다양한 시나리오에 적용 가능하다는 것이 밝혀졌습니다. 대부분의 기존 기본 확산 모델은 주로 텍스트 안내 시각적 생성을 위해 설계되었으며 다중 모달 조건을 지원하지 않습니다. 다중 모달 조건은 많은 시각적 편집 작업에 필수적이지만, 이러한 제한으로 인해 이러한 기본 확산 모델들이 GPT-4와 같이 자연어 처리 분야에서의 통합 모델로 작용하는 것을 방해합니다. 본 연구에서는 ACE(All-round Creator and Editor)를 제안합니다. ACE는 다양한 시각적 생성 작업에서 전문 모델들과 비슷한 성능을 달성합니다. 이를 위해 먼저 Long-context Condition Unit(LCU)라는 통합 조건 형식을 소개하고, LCU를 입력으로 사용하는 새로운 Transformer 기반 확산 모델을 제안하여 다양한 생성 및 편집 작업에 걸쳐 공동 훈련을 목표로 합니다. 더불어, 훈련 데이터 부재 문제를 해결하기 위해 효율적인 데이터 수집 방법을 제안합니다. 이 방법은 합성 기반 또는 클러스터링 기반 파이프라인을 사용하여 쌍으로 된 이미지를 획득하고, 미세 조정된 다중 모달 대형 언어 모델을 활용하여 정확한 텍스트 지침을 제공합니다. 우리 모델의 성능을 종합적으로 평가하기 위해 다양한 시각적 생성 작업에 걸친 수동으로 주석이 달린 쌍 데이터의 벤치마크를 수립합니다. 광범위한 실험 결과는 우리 모델의 시각적 생성 분야에서의 우월성을 입증합니다. 우리 모델의 올인원 기능 덕분에, 시각적 에이전트에서 일반적으로 사용되는 번거로운 파이프라인을 피하고 단일 모델을 백엔드로 사용하여 이미지 생성에 대한 상호작용 요청에 응답하는 다중 모달 채팅 시스템을 쉽게 구축할 수 있습니다. 코드 및 모델은 프로젝트 페이지에서 제공될 예정입니다: https://ali-vilab.github.io/ace-page/.
English
Diffusion models have emerged as a powerful generative technology and have been found to be applicable in various scenarios. Most existing foundational diffusion models are primarily designed for text-guided visual generation and do not support multi-modal conditions, which are essential for many visual editing tasks. This limitation prevents these foundational diffusion models from serving as a unified model in the field of visual generation, like GPT-4 in the natural language processing field. In this work, we propose ACE, an All-round Creator and Editor, which achieves comparable performance compared to those expert models in a wide range of visual generation tasks. To achieve this goal, we first introduce a unified condition format termed Long-context Condition Unit (LCU), and propose a novel Transformer-based diffusion model that uses LCU as input, aiming for joint training across various generation and editing tasks. Furthermore, we propose an efficient data collection approach to address the issue of the absence of available training data. It involves acquiring pairwise images with synthesis-based or clustering-based pipelines and supplying these pairs with accurate textual instructions by leveraging a fine-tuned multi-modal large language model. To comprehensively evaluate the performance of our model, we establish a benchmark of manually annotated pairs data across a variety of visual generation tasks. The extensive experimental results demonstrate the superiority of our model in visual generation fields. Thanks to the all-in-one capabilities of our model, we can easily build a multi-modal chat system that responds to any interactive request for image creation using a single model to serve as the backend, avoiding the cumbersome pipeline typically employed in visual agents. Code and models will be available on the project page: https://ali-vilab.github.io/ace-page/.

Summary

AI-Generated Summary

PDF122November 13, 2024