ChatPaper.aiChatPaper

개념주의: 확산 트랜스포머는 매우 해석 가능한 특징을 학습합니다.

ConceptAttention: Diffusion Transformers Learn Highly Interpretable Features

February 6, 2025
저자: Alec Helbling, Tuna Han Salih Meral, Ben Hoover, Pinar Yanardag, Duen Horng Chau
cs.AI

초록

다중 모달 확산 트랜스포머(DiT)의 풍부한 표현이 고유한 특성을 나타내어 해석 가능성을 향상시키는가? 우리는 DiT 주의층의 표현력을 활용하여 이미지 내 텍스트 개념을 정확히 위치시키는 고품질 중요도 지도를 생성하는 혁신적인 ConceptAttention 방법을 소개합니다. 추가 교육이 필요하지 않은 ConceptAttention은 DiT 주의층의 매개변수를 재활용하여 매우 맥락화된 개념 임베딩을 생성함으로써, DiT 주의층의 출력 공간에서 선형 투영을 수행하면 일반적으로 사용되는 교차 주의 메커니즘보다 훨씬 뚜렷한 중요도 지도를 얻는 주요 발견을 기여합니다. 놀랍게도 ConceptAttention은 심지어 ImageNet-Segmentation 데이터셋과 PascalVOC의 단일 클래스 하위 집합에서 11가지 다른 제로샷 해석 가능성 방법을 능가하는 최첨단 성능을 달성합니다. 우리의 연구는 Flux와 같은 다중 모달 DiT 모델의 표현이 Segmentation과 같은 시각 작업으로 매우 전이 가능하며, CLIP와 같은 다중 모달 기본 모델을 능가하는 것을 처음으로 입증합니다.
English
Do the rich representations of multi-modal diffusion transformers (DiTs) exhibit unique properties that enhance their interpretability? We introduce ConceptAttention, a novel method that leverages the expressive power of DiT attention layers to generate high-quality saliency maps that precisely locate textual concepts within images. Without requiring additional training, ConceptAttention repurposes the parameters of DiT attention layers to produce highly contextualized concept embeddings, contributing the major discovery that performing linear projections in the output space of DiT attention layers yields significantly sharper saliency maps compared to commonly used cross-attention mechanisms. Remarkably, ConceptAttention even achieves state-of-the-art performance on zero-shot image segmentation benchmarks, outperforming 11 other zero-shot interpretability methods on the ImageNet-Segmentation dataset and on a single-class subset of PascalVOC. Our work contributes the first evidence that the representations of multi-modal DiT models like Flux are highly transferable to vision tasks like segmentation, even outperforming multi-modal foundation models like CLIP.

Summary

AI-Generated Summary

PDF333February 7, 2025