ChatDiT: Uma Linha de Base sem Treinamento para Conversas Livres Agnósticas à Tarefa com Transformadores de Difusão
ChatDiT: A Training-Free Baseline for Task-Agnostic Free-Form Chatting with Diffusion Transformers
December 17, 2024
Autores: Lianghua Huang, Wei Wang, Zhi-Fan Wu, Yupeng Shi, Chen Liang, Tong Shen, Han Zhang, Huanzhang Dou, Yu Liu, Jingren Zhou
cs.AI
Resumo
Uma pesquisa recente arXiv:2410.15027 arXiv:2410.23775 destacou as capacidades inerentes de geração em contexto dos transformadores de difusão pré-treinados (DiTs), permitindo que eles se adaptem facilmente a diversas tarefas visuais com modificações arquiteturais mínimas ou nulas. Essas capacidades são desbloqueadas pela concatenação de tokens de autoatenção em várias imagens de entrada e alvo, combinadas com pipelines de geração agrupados e mascarados. Construindo sobre essa base, apresentamos o ChatDiT, um framework de geração visual interativa, de propósito geral e sem ajustes, que utiliza transformadores de difusão pré-treinados em sua forma original, sem a necessidade de ajustes adicionais, adaptadores ou modificações. Os usuários podem interagir com o ChatDiT para criar artigos texto-imagem entrelaçados, livros de figuras de várias páginas, editar imagens, projetar derivados de propriedade intelectual ou desenvolver configurações de design de personagens, tudo através de linguagem natural livre em uma ou mais rodadas de conversação. No cerne do ChatDiT, há um sistema multiagente composto por três componentes principais: um agente de Análise de Instruções que interpreta imagens e instruções enviadas pelo usuário, um agente de Planejamento de Estratégias que elabora ações de geração em um único passo ou em vários passos, e um agente de Execução que realiza essas ações usando um conjunto de ferramentas de transformadores de difusão em contexto. Avaliamos minuciosamente o ChatDiT no IDEA-Bench arXiv:2412.11767, composto por 100 tarefas de design do mundo real e 275 casos com instruções diversas e números variados de imagens de entrada e alvo. Apesar de sua simplicidade e abordagem sem treinamento, o ChatDiT supera todos os concorrentes, incluindo aqueles especificamente projetados e treinados em extensos conjuntos de dados multi-tarefa. Identificamos ainda as principais limitações dos DiTs pré-treinados na adaptação zero-shot a tarefas. Disponibilizamos todo o código, agentes, resultados e saídas intermediárias para facilitar pesquisas adicionais em https://github.com/ali-vilab/ChatDiT.
English
Recent research arXiv:2410.15027 arXiv:2410.23775 has highlighted the
inherent in-context generation capabilities of pretrained diffusion
transformers (DiTs), enabling them to seamlessly adapt to diverse visual tasks
with minimal or no architectural modifications. These capabilities are unlocked
by concatenating self-attention tokens across multiple input and target images,
combined with grouped and masked generation pipelines. Building upon this
foundation, we present ChatDiT, a zero-shot, general-purpose, and interactive
visual generation framework that leverages pretrained diffusion transformers in
their original form, requiring no additional tuning, adapters, or
modifications. Users can interact with ChatDiT to create interleaved text-image
articles, multi-page picture books, edit images, design IP derivatives, or
develop character design settings, all through free-form natural language
across one or more conversational rounds. At its core, ChatDiT employs a
multi-agent system comprising three key components: an Instruction-Parsing
agent that interprets user-uploaded images and instructions, a
Strategy-Planning agent that devises single-step or multi-step generation
actions, and an Execution agent that performs these actions using an in-context
toolkit of diffusion transformers. We thoroughly evaluate ChatDiT on IDEA-Bench
arXiv:2412.11767, comprising 100 real-world design tasks and 275 cases with
diverse instructions and varying numbers of input and target images. Despite
its simplicity and training-free approach, ChatDiT surpasses all competitors,
including those specifically designed and trained on extensive multi-task
datasets. We further identify key limitations of pretrained DiTs in zero-shot
adapting to tasks. We release all code, agents, results, and intermediate
outputs to facilitate further research at https://github.com/ali-vilab/ChatDiTSummary
AI-Generated Summary