FAM 확산: 안정적인 확산을 통한 고해상도 이미지 생성을 위한 주파수 및 주의 집중력 수정
FAM Diffusion: Frequency and Attention Modulation for High-Resolution Image Generation with Stable Diffusion
November 27, 2024
저자: Haosen Yang, Adrian Bulat, Isma Hadji, Hai X. Pham, Xiatian Zhu, Georgios Tzimiropoulos, Brais Martinez
cs.AI
초록
확산 모델은 고품질 이미지를 생성하는 데 능숙합니다. 그러나 학습 중 사용된 해상도에서만 효과적입니다. 축소된 해상도에서의 추론은 반복적인 패턴과 구조적 왜곡을 유발합니다. 고해상도에서의 재학습은 빠르게 제한적이 됩니다. 따라서 기존의 확산 모델이 유연한 테스트 시간 해상도에서 작동할 수 있도록 하는 방법이 매우 바람직합니다. 이전 연구는 빈번한 아티팩트와 큰 지연 오버헤드를 유발하는 문제가 있습니다. 우리는 이러한 문제를 해결하기 위해 두 가지 간단한 모듈을 제안합니다. 우리는 전역 구조 일관성을 향상시키기 위해 푸리에 영역을 활용하는 주파수 변조(FM) 모듈과 이전 연구에서 주로 무시된 지역 텍스처 패턴 일관성을 향상시키는 어텐션 변조(AM) 모듈을 소개합니다. 우리의 방법인 Fam 확산은 어떤 잠재적 확산 모델에도 매끄럽게 통합되며 추가적인 훈련이 필요하지 않습니다. 방대한 질적 결과는 우리의 방법이 구조적 및 지역 아티팩트를 해결하는 데 효과적임을 강조하며, 양적 결과는 최신 기술을 보여줍니다. 또한 우리의 방법은 패치 기반이나 점진적 생성과 같은 일관성 향상을 위한 중복된 추론 트릭을 피함으로써 무시할 수 있는 지연 오버헤드를 유발합니다.
English
Diffusion models are proficient at generating high-quality images. They are
however effective only when operating at the resolution used during training.
Inference at a scaled resolution leads to repetitive patterns and structural
distortions. Retraining at higher resolutions quickly becomes prohibitive.
Thus, methods enabling pre-existing diffusion models to operate at flexible
test-time resolutions are highly desirable. Previous works suffer from frequent
artifacts and often introduce large latency overheads. We propose two simple
modules that combine to solve these issues. We introduce a Frequency Modulation
(FM) module that leverages the Fourier domain to improve the global structure
consistency, and an Attention Modulation (AM) module which improves the
consistency of local texture patterns, a problem largely ignored in prior
works. Our method, coined Fam diffusion, can seamlessly integrate into any
latent diffusion model and requires no additional training. Extensive
qualitative results highlight the effectiveness of our method in addressing
structural and local artifacts, while quantitative results show
state-of-the-art performance. Also, our method avoids redundant inference
tricks for improved consistency such as patch-based or progressive generation,
leading to negligible latency overheads.Summary
AI-Generated Summary