ChatDiT: Uma Linha de Base sem Treinamento para Conversas Livres Agnósticas à Tarefa com Transformadores de Difusão

Resumo

Uma pesquisa recente arXiv:2410.15027 arXiv:2410.23775 destacou as capacidades inerentes de geração em contexto dos transformadores de difusão pré-treinados (DiTs), permitindo que eles se adaptem facilmente a diversas tarefas visuais com modificações arquiteturais mínimas ou nulas. Essas capacidades são desbloqueadas pela concatenação de tokens de autoatenção em várias imagens de entrada e alvo, combinadas com pipelines de geração agrupados e mascarados. Construindo sobre essa base, apresentamos o ChatDiT, um framework de geração visual interativa, de propósito geral e sem ajustes, que utiliza transformadores de difusão pré-treinados em sua forma original, sem a necessidade de ajustes adicionais, adaptadores ou modificações. Os usuários podem interagir com o ChatDiT para criar artigos texto-imagem entrelaçados, livros de figuras de várias páginas, editar imagens, projetar derivados de propriedade intelectual ou desenvolver configurações de design de personagens, tudo através de linguagem natural livre em uma ou mais rodadas de conversação. No cerne do ChatDiT, há um sistema multiagente composto por três componentes principais: um agente de Análise de Instruções que interpreta imagens e instruções enviadas pelo usuário, um agente de Planejamento de Estratégias que elabora ações de geração em um único passo ou em vários passos, e um agente de Execução que realiza essas ações usando um conjunto de ferramentas de transformadores de difusão em contexto. Avaliamos minuciosamente o ChatDiT no IDEA-Bench arXiv:2412.11767, composto por 100 tarefas de design do mundo real e 275 casos com instruções diversas e números variados de imagens de entrada e alvo. Apesar de sua simplicidade e abordagem sem treinamento, o ChatDiT supera todos os concorrentes, incluindo aqueles especificamente projetados e treinados em extensos conjuntos de dados multi-tarefa. Identificamos ainda as principais limitações dos DiTs pré-treinados na adaptação zero-shot a tarefas. Disponibilizamos todo o código, agentes, resultados e saídas intermediárias para facilitar pesquisas adicionais em https://github.com/ali-vilab/ChatDiT.

English

Recent research arXiv:2410.15027 arXiv:2410.23775 has highlighted the inherent in-context generation capabilities of pretrained diffusion transformers (DiTs), enabling them to seamlessly adapt to diverse visual tasks with minimal or no architectural modifications. These capabilities are unlocked by concatenating self-attention tokens across multiple input and target images, combined with grouped and masked generation pipelines. Building upon this foundation, we present ChatDiT, a zero-shot, general-purpose, and interactive visual generation framework that leverages pretrained diffusion transformers in their original form, requiring no additional tuning, adapters, or modifications. Users can interact with ChatDiT to create interleaved text-image articles, multi-page picture books, edit images, design IP derivatives, or develop character design settings, all through free-form natural language across one or more conversational rounds. At its core, ChatDiT employs a multi-agent system comprising three key components: an Instruction-Parsing agent that interprets user-uploaded images and instructions, a Strategy-Planning agent that devises single-step or multi-step generation actions, and an Execution agent that performs these actions using an in-context toolkit of diffusion transformers. We thoroughly evaluate ChatDiT on IDEA-Bench arXiv:2412.11767, comprising 100 real-world design tasks and 275 cases with diverse instructions and varying numbers of input and target images. Despite its simplicity and training-free approach, ChatDiT surpasses all competitors, including those specifically designed and trained on extensive multi-task datasets. We further identify key limitations of pretrained DiTs in zero-shot adapting to tasks. We release all code, agents, results, and intermediate outputs to facilitate further research at https://github.com/ali-vilab/ChatDiT

ChatDiT: Uma Linha de Base sem Treinamento para Conversas Livres Agnósticas à Tarefa com Transformadores de Difusão

ChatDiT: A Training-Free Baseline for Task-Agnostic Free-Form Chatting with Diffusion Transformers

Resumo

Support