ChatPaper.aiChatPaper

프리스케일: 튜닝이 필요 없는 스케일 퓨전을 통해 확산 모델의 해상도 발휘하기

FreeScale: Unleashing the Resolution of Diffusion Models via Tuning-Free Scale Fusion

December 12, 2024
저자: Haonan Qiu, Shiwei Zhang, Yujie Wei, Ruihang Chu, Hangjie Yuan, Xiang Wang, Yingya Zhang, Ziwei Liu
cs.AI

초록

시각 확산 모델은 현저한 진전을 이루고 있지만, 일반적으로 고해상도 데이터의 부족과 제한된 계산 자원으로 인해 제한된 해상도에서 훈련됩니다. 이는 고해상도 이미지나 비디오를 생성하는 능력을 저해하여 높은 해상도에서 고품질 이미지나 비디오를 생성하는 것을 어렵게 합니다. 최근의 노력은 튜닝이 필요 없는 전략을 탐구하여 사전 훈련된 모델의 미개척된 잠재력을 높은 해상도 시각 생성으로 드러내려고 합니다. 그러나 이러한 방법들은 여전히 반복적인 패턴을 가진 저품질 시각 콘텐츠를 생성하는 취약점이 있습니다. 주요 장애물은 모델이 훈련 해상도를 초과하는 시각 콘텐츠를 생성할 때 높은 주파수 정보가 증가함에 따라 누적된 오차에서 비롯된 원치 않는 반복적인 패턴이 발생한다는 점에 있습니다. 이 문제를 해결하기 위해 우리는 FreeScale이라는 튜닝이 필요 없는 추론 패러다임을 제안합니다. 이를 통해 스케일 퓨전을 통해 더 높은 해상도의 시각 생성이 가능해집니다. 구체적으로, FreeScale은 서로 다른 수용 스케일에서 정보를 처리한 다음 원하는 주파수 구성 요소를 추출하여 퓨전합니다. 광범위한 실험을 통해 우리의 패러다임이 이미지 및 비디오 모델 모두에 대해 더 높은 해상도의 시각 생성 능력을 확장하는 데 우월함을 입증했습니다. 특히, 이전 최고 성능 방법과 비교했을 때, FreeScale은 처음으로 8k 해상도 이미지 생성을 가능하게 합니다.
English
Visual diffusion models achieve remarkable progress, yet they are typically trained at limited resolutions due to the lack of high-resolution data and constrained computation resources, hampering their ability to generate high-fidelity images or videos at higher resolutions. Recent efforts have explored tuning-free strategies to exhibit the untapped potential higher-resolution visual generation of pre-trained models. However, these methods are still prone to producing low-quality visual content with repetitive patterns. The key obstacle lies in the inevitable increase in high-frequency information when the model generates visual content exceeding its training resolution, leading to undesirable repetitive patterns deriving from the accumulated errors. To tackle this challenge, we propose FreeScale, a tuning-free inference paradigm to enable higher-resolution visual generation via scale fusion. Specifically, FreeScale processes information from different receptive scales and then fuses it by extracting desired frequency components. Extensive experiments validate the superiority of our paradigm in extending the capabilities of higher-resolution visual generation for both image and video models. Notably, compared with the previous best-performing method, FreeScale unlocks the generation of 8k-resolution images for the first time.
PDF202December 16, 2024