ChatPaper.aiChatPaper

Skrr: 메모리 효율적인 텍스트에서 이미지 생성을 위한 건너뛰기 및 재사용 텍스트 인코더 레이어

Skrr: Skip and Re-use Text Encoder Layers for Memory Efficient Text-to-Image Generation

February 12, 2025
저자: Hoigi Seo, Wongi Jeong, Jae-sun Seo, Se Young Chun
cs.AI

초록

텍스트-이미지(T2I) 확산 모델에서 대규모 텍스트 인코더는 텍스트 프롬프트로부터 고품질 이미지를 생성하는 데 뛰어난 성능을 보여주었습니다. 여러 반복 단계에 의존하는 노이즈 제거 모듈과는 달리, 텍스트 인코더는 텍스트 임베딩을 생성하기 위해 단일 전방향 패스만 필요로 합니다. 그러나 총 추론 시간 및 부동 소수점 연산(FLOPs)에 대한 그들의 기여가 최소하더라도, 텍스트 인코더는 기존의 노이즈 제거 모듈보다 최대 8배 더 높은 메모리 사용량을 요구합니다. 이 비효율성을 해결하기 위해 우리는 T2I 확산 모델의 텍스트 인코더를 위해 특별히 설계된 간단하면서도 효과적인 가지치기 전략인 Skip and Re-use layers (Skrr)를 제안합니다. Skrr은 T2I 작업에 맞게 트랜스포머 블록의 내재적 중복성을 활용하여 특정 레이어를 선택적으로 건너뛰거나 재사용함으로써 성능을 희생하지 않고 메모리 소비를 줄입니다. 광범위한 실험 결과는 Skrr이 높은 희소성 수준에서도 원래 모델과 비슷한 이미지 품질을 유지하며, 기존의 블록별 가지치기 방법을 능가하는 것을 보여줍니다. 게다가 Skrr은 FID, CLIP, DreamSim 및 GenEval 점수를 포함한 여러 평가 지표에서 성능을 유지하면서 최신의 메모리 효율성을 달성합니다.
English
Large-scale text encoders in text-to-image (T2I) diffusion models have demonstrated exceptional performance in generating high-quality images from textual prompts. Unlike denoising modules that rely on multiple iterative steps, text encoders require only a single forward pass to produce text embeddings. However, despite their minimal contribution to total inference time and floating-point operations (FLOPs), text encoders demand significantly higher memory usage, up to eight times more than denoising modules. To address this inefficiency, we propose Skip and Re-use layers (Skrr), a simple yet effective pruning strategy specifically designed for text encoders in T2I diffusion models. Skrr exploits the inherent redundancy in transformer blocks by selectively skipping or reusing certain layers in a manner tailored for T2I tasks, thereby reducing memory consumption without compromising performance. Extensive experiments demonstrate that Skrr maintains image quality comparable to the original model even under high sparsity levels, outperforming existing blockwise pruning methods. Furthermore, Skrr achieves state-of-the-art memory efficiency while preserving performance across multiple evaluation metrics, including the FID, CLIP, DreamSim, and GenEval scores.

Summary

AI-Generated Summary

PDF392February 14, 2025