RelaCtrl: 확산 트랜스포머를 위한 관련성 기반 효율적 제어
RelaCtrl: Relevance-Guided Efficient Control for Diffusion Transformers
February 20, 2025
저자: Ke Cao, Jing Wang, Ao Ma, Jiasong Feng, Zhanjie Zhang, Xuanhua He, Shanyuan Liu, Bo Cheng, Dawei Leng, Yuhui Yin, Jie Zhang
cs.AI
초록
디퓨전 트랜스포머(Diffusion Transformer)는 주로 그 자체의 확장성 덕분에 텍스트-이미지 및 텍스트-비디오 생성 분야에서 핵심적인 역할을 하고 있습니다. 그러나 기존의 제어된 디퓨전 트랜스포머 방법들은 상당한 매개변수와 계산 오버헤드를 초래하며, 트랜스포머 계층 간 제어 정보의 상대적 중요성을 고려하지 못해 자원 할당이 비효율적이라는 문제가 있습니다. 이를 해결하기 위해, 우리는 제어 신호를 디퓨전 트랜스포머에 효율적이고 자원 최적화된 방식으로 통합하는 "관련성 기반 효율적 제어 생성 프레임워크(RelaCtrl)"를 제안합니다. 먼저, 우리는 디퓨전 트랜스포머의 각 계층이 제어 정보와 얼마나 관련이 있는지를 "ControlNet 관련성 점수(ControlNet Relevance Score)"를 통해 평가합니다. 이는 각 제어 계층을 생략했을 때 생성 품질과 제어 효과에 미치는 영향을 측정하는 것입니다. 관련성의 강도에 기반하여, 우리는 제어 계층의 위치, 매개변수 규모 및 모델링 용량을 조정하여 불필요한 매개변수와 중복 계산을 줄입니다. 또한, 효율성을 더욱 개선하기 위해 일반적으로 사용되는 복사 블록(copy block)의 자기 주의(self-attention)와 FFN(Feed-Forward Network)을 신중하게 설계된 2차원 셔플 믹서(Two-Dimensional Shuffle Mixer, TDSM)로 대체하여 토큰 믹서와 채널 믹서를 효율적으로 구현합니다. 정성적 및 정량적 실험 결과는 우리의 접근 방식이 PixArt-delta 대비 매개변수와 계산 복잡도의 15%만으로도 우수한 성능을 달성함을 보여줍니다. 더 많은 예시는 https://relactrl.github.io/RelaCtrl/에서 확인할 수 있습니다.
English
The Diffusion Transformer plays a pivotal role in advancing text-to-image and
text-to-video generation, owing primarily to its inherent scalability. However,
existing controlled diffusion transformer methods incur significant parameter
and computational overheads and suffer from inefficient resource allocation due
to their failure to account for the varying relevance of control information
across different transformer layers. To address this, we propose the
Relevance-Guided Efficient Controllable Generation framework, RelaCtrl,
enabling efficient and resource-optimized integration of control signals into
the Diffusion Transformer. First, we evaluate the relevance of each layer in
the Diffusion Transformer to the control information by assessing the
"ControlNet Relevance Score"-i.e., the impact of skipping each control layer on
both the quality of generation and the control effectiveness during inference.
Based on the strength of the relevance, we then tailor the positioning,
parameter scale, and modeling capacity of the control layers to reduce
unnecessary parameters and redundant computations. Additionally, to further
improve efficiency, we replace the self-attention and FFN in the commonly used
copy block with the carefully designed Two-Dimensional Shuffle Mixer (TDSM),
enabling efficient implementation of both the token mixer and channel mixer.
Both qualitative and quantitative experimental results demonstrate that our
approach achieves superior performance with only 15% of the parameters and
computational complexity compared to PixArt-delta. More examples are available
at https://relactrl.github.io/RelaCtrl/.Summary
AI-Generated Summary