ChatDiT: una base di riferimento senza addestramento per la chat libera agnostica al compito con trasformatori a diffusione.

ChatDiT: A Training-Free Baseline for Task-Agnostic Free-Form Chatting with Diffusion Transformers

December 17, 2024
Autori: Lianghua Huang, Wei Wang, Zhi-Fan Wu, Yupeng Shi, Chen Liang, Tong Shen, Han Zhang, Huanzhang Dou, Yu Liu, Jingren Zhou
cs.AI

Abstract

Ricerche recenti arXiv:2410.15027 arXiv:2410.23775 hanno evidenziato le capacità di generazione contestuale intrinseche dei trasformatori a diffusione preaddestrati (DiTs), consentendo loro di adattarsi senza soluzione di continuità a diverse attività visive con modifiche architetturali minime o nulle. Queste capacità vengono sbloccate concatenando i token di autoattenzione attraverso più immagini di input e target, combinati con pipeline di generazione raggruppate e mascherate. Sviluppando su questa base, presentiamo ChatDiT, un framework di generazione visiva zero-shot, generale e interattivo che sfrutta i trasformatori a diffusione preaddestrati nella loro forma originale, senza richiedere alcun aggiustamento aggiuntivo, adattatori o modifiche. Gli utenti possono interagire con ChatDiT per creare articoli testo-immagine intrecciati, libri illustrati multi-pagina, modificare immagini, progettare derivati di proprietà intellettuale o sviluppare impostazioni di design di personaggi, tutto attraverso linguaggio naturale libero in uno o più turni di conversazione. Al suo nucleo, ChatDiT impiega un sistema multi-agente composto da tre componenti chiave: un agente di Interpretazione delle Istruzioni che interpreta immagini e istruzioni caricate dall'utente, un agente di Pianificazione della Strategia che elabora azioni di generazione singola o multi-step, e un agente di Esecuzione che esegue queste azioni utilizzando un toolkit contestuale di trasformatori a diffusione. Valutiamo approfonditamente ChatDiT su IDEA-Bench arXiv:2412.11767, comprendente 100 compiti di design del mondo reale e 275 casi con istruzioni diverse e numeri variabili di immagini di input e target. Nonostante la sua semplicità e l'approccio privo di addestramento, ChatDiT supera tutti i concorrenti, inclusi quelli progettati e addestrati specificamente su ampi set di dati multi-task. Identifichiamo inoltre le principali limitazioni dei DiTs preaddestrati nell'adattarsi zero-shot alle attività. Rilasciamo tutto il codice, gli agenti, i risultati e le uscite intermedie per facilitare ulteriori ricerche su https://github.com/ali-vilab/ChatDiT
English
Recent research arXiv:2410.15027 arXiv:2410.23775 has highlighted the inherent in-context generation capabilities of pretrained diffusion transformers (DiTs), enabling them to seamlessly adapt to diverse visual tasks with minimal or no architectural modifications. These capabilities are unlocked by concatenating self-attention tokens across multiple input and target images, combined with grouped and masked generation pipelines. Building upon this foundation, we present ChatDiT, a zero-shot, general-purpose, and interactive visual generation framework that leverages pretrained diffusion transformers in their original form, requiring no additional tuning, adapters, or modifications. Users can interact with ChatDiT to create interleaved text-image articles, multi-page picture books, edit images, design IP derivatives, or develop character design settings, all through free-form natural language across one or more conversational rounds. At its core, ChatDiT employs a multi-agent system comprising three key components: an Instruction-Parsing agent that interprets user-uploaded images and instructions, a Strategy-Planning agent that devises single-step or multi-step generation actions, and an Execution agent that performs these actions using an in-context toolkit of diffusion transformers. We thoroughly evaluate ChatDiT on IDEA-Bench arXiv:2412.11767, comprising 100 real-world design tasks and 275 cases with diverse instructions and varying numbers of input and target images. Despite its simplicity and training-free approach, ChatDiT surpasses all competitors, including those specifically designed and trained on extensive multi-task datasets. We further identify key limitations of pretrained DiTs in zero-shot adapting to tasks. We release all code, agents, results, and intermediate outputs to facilitate further research at https://github.com/ali-vilab/ChatDiT

Summary

AI-Generated Summary

PDF82December 19, 2024