ChatPaper.aiChatPaper

MakeAnything: 다중 도메인 절차적 시퀀스 생성을 위한 확산 트랜스포머 활용

MakeAnything: Harnessing Diffusion Transformers for Multi-Domain Procedural Sequence Generation

February 3, 2025
저자: Yiren Song, Cheng Liu, Mike Zheng Shou
cs.AI

초록

인간 지능의 특징 중 하나는 구조화된 다단계 과정을 통해 복잡한 아티팩트를 창조하는 능력입니다. AI를 사용하여 절차적 튜토리얼을 생성하는 것은 오랜 역사가 있지만 도전적인 목표이며, 세 가지 주요 장애물에 직면하고 있습니다: (1) 다중 작업 절차 데이터셋의 부족, (2) 단계 간 논리적 연속성과 시각적 일관성의 유지, (3) 여러 도메인을 횡단적으로 일반화하는 것입니다. 이러한 도전에 대응하기 위해, 우리는 24,000개 이상의 절차적 시퀀스를 포함한 21가지 작업을 다루는 다중 도메인 데이터셋을 제안합니다. 이 기반 위에, 우리는 확산 트랜스포머(DIT)를 기반으로 한 MakeAnything 프레임워크를 소개합니다. 이 프레임워크는 DIT의 문맥 내 능력을 활성화하기 위해 파인튜닝을 활용하여 일관된 절차적 시퀀스를 생성합니다. 이미지 생성을 위해 비대칭 저랭크 적응(LoRA)을 소개하여 인코더 매개변수를 고정시키고 디코더 레이어를 적응적으로 조정함으로써 일반화 능력과 작업 특정 성능을 균형 있게 유지합니다. 또한 우리의 ReCraft 모델은 공간적 시간적 일관성 제약을 통해 이미지에서 과정 생성을 가능하게 하며, 정적 이미지를 타당한 창조 시퀀스로 분해할 수 있습니다. 방대한 실험 결과는 MakeAnything가 기존 방법을 능가하며, 절차적 생성 작업에 대한 새로운 성능 기준을 설정한다는 것을 보여줍니다.
English
A hallmark of human intelligence is the ability to create complex artifacts through structured multi-step processes. Generating procedural tutorials with AI is a longstanding but challenging goal, facing three key obstacles: (1) scarcity of multi-task procedural datasets, (2) maintaining logical continuity and visual consistency between steps, and (3) generalizing across multiple domains. To address these challenges, we propose a multi-domain dataset covering 21 tasks with over 24,000 procedural sequences. Building upon this foundation, we introduce MakeAnything, a framework based on the diffusion transformer (DIT), which leverages fine-tuning to activate the in-context capabilities of DIT for generating consistent procedural sequences. We introduce asymmetric low-rank adaptation (LoRA) for image generation, which balances generalization capabilities and task-specific performance by freezing encoder parameters while adaptively tuning decoder layers. Additionally, our ReCraft model enables image-to-process generation through spatiotemporal consistency constraints, allowing static images to be decomposed into plausible creation sequences. Extensive experiments demonstrate that MakeAnything surpasses existing methods, setting new performance benchmarks for procedural generation tasks.

Summary

AI-Generated Summary

PDF202February 5, 2025