ChatDiT:拡散トランスフォーマーを用いたタスクに依存しないフリーフォームチャットのためのトレーニング不要なベースライン
ChatDiT: A Training-Free Baseline for Task-Agnostic Free-Form Chatting with Diffusion Transformers
December 17, 2024
著者: Lianghua Huang, Wei Wang, Zhi-Fan Wu, Yupeng Shi, Chen Liang, Tong Shen, Han Zhang, Huanzhang Dou, Yu Liu, Jingren Zhou
cs.AI
要旨
最近の研究 arXiv:2410.15027 および arXiv:2410.23775 は、事前学習された拡散トランスフォーマー(DiTs)の固有のコンテキスト内生成能力を強調し、これにより、最小限またはほとんどのアーキテクチャの変更を必要とせずに、さまざまなビジュアルタスクにシームレスに適応できることが可能となりました。これらの能力は、複数の入力およびターゲット画像を横断して自己注意トークンを連結し、グループ化およびマスク処理された生成パイプラインと組み合わせることで実現されます。この基盤を活用して、私たちはChatDiTを提案します。これは、事前学習された拡散トランスフォーマーをそのまま活用する、ゼロショット、汎用、対話型のビジュアル生成フレームワークであり、追加の調整、アダプター、または変更を必要としません。ユーザーは、ChatDiTを介して、1つ以上の会話ラウンドを通じて、自由形式の自然言語を使用して、交互にテキストと画像の記事、複数ページの絵本、画像の編集、IP派生物の設計、キャラクターデザイン設定の開発などを作成できます。ChatDiTの中核となるのは、3つの主要コンポーネントからなるマルチエージェントシステムを採用しています。それは、ユーザーがアップロードした画像と指示を解釈するInstruction-Parsing エージェント、単一ステップまたは複数ステップの生成アクションを考案するStrategy-Planning エージェント、およびこれらのアクションを実行するExecution エージェントから成り立っています。私たちは、IDEA-Bench arXiv:2412.11767 上でChatDiTを徹底的に評価しました。これには、100の実世界の設計タスクと、多様な指示と異なる数の入力およびターゲット画像を持つ275のケースが含まれています。そのシンプルさとトレーニング不要なアプローチにもかかわらず、ChatDiTは、広範なマルチタスクデータセットで特に設計およびトレーニングされた競合他社を含め、すべての競合他社を凌駕しています。さらに、事前学習されたDiTsがゼロショットでタスクに適応する際の主要な制限を特定しています。私たちは、さらなる研究を促進するために、すべてのコード、エージェント、結果、および中間出力を https://github.com/ali-vilab/ChatDiT で公開しています。
English
Recent research arXiv:2410.15027 arXiv:2410.23775 has highlighted the
inherent in-context generation capabilities of pretrained diffusion
transformers (DiTs), enabling them to seamlessly adapt to diverse visual tasks
with minimal or no architectural modifications. These capabilities are unlocked
by concatenating self-attention tokens across multiple input and target images,
combined with grouped and masked generation pipelines. Building upon this
foundation, we present ChatDiT, a zero-shot, general-purpose, and interactive
visual generation framework that leverages pretrained diffusion transformers in
their original form, requiring no additional tuning, adapters, or
modifications. Users can interact with ChatDiT to create interleaved text-image
articles, multi-page picture books, edit images, design IP derivatives, or
develop character design settings, all through free-form natural language
across one or more conversational rounds. At its core, ChatDiT employs a
multi-agent system comprising three key components: an Instruction-Parsing
agent that interprets user-uploaded images and instructions, a
Strategy-Planning agent that devises single-step or multi-step generation
actions, and an Execution agent that performs these actions using an in-context
toolkit of diffusion transformers. We thoroughly evaluate ChatDiT on IDEA-Bench
arXiv:2412.11767, comprising 100 real-world design tasks and 275 cases with
diverse instructions and varying numbers of input and target images. Despite
its simplicity and training-free approach, ChatDiT surpasses all competitors,
including those specifically designed and trained on extensive multi-task
datasets. We further identify key limitations of pretrained DiTs in zero-shot
adapting to tasks. We release all code, agents, results, and intermediate
outputs to facilitate further research at https://github.com/ali-vilab/ChatDiTSummary
AI-Generated Summary