ChatPaper.aiChatPaper

추론 시간 스케일링은 스케일링 노이즈 제거 단계를 넘어 확산 모델에 대해 적용됩니다.

Inference-Time Scaling for Diffusion Models beyond Scaling Denoising Steps

January 16, 2025
저자: Nanye Ma, Shangyuan Tong, Haolin Jia, Hexiang Hu, Yu-Chuan Su, Mingda Zhang, Xuan Yang, Yandong Li, Tommi Jaakkola, Xuhui Jia, Saining Xie
cs.AI

초록

생성 모델은 다양한 영역에서 중요한 영향을 미쳤는데, 이는 데이터, 계산 자원, 그리고 모델 크기를 증가시킴으로써 훈련 중에 확장할 수 있는 능력 때문이다. 이러한 현상은 스케일링 법칙에 의해 특징 지어진다. 최근 연구에서는 대형 언어 모델 (LLM)의 추론 시간 스케일링 행동을 탐구하기 시작하여 성능이 추가 계산을 통해 어떻게 더 개선될 수 있는지 밝혀내고 있다. LLM과는 달리 확산 모델은 기본적으로 노이즈 제거 단계 수를 통해 추론 시간 계산을 조정할 수 있는 유연성을 갖고 있지만, 성능 향상은 일반적으로 수십 단계 후에 안정화된다. 본 연구에서는 확산 모델의 추론 시간 스케일링 행동을 더 많은 노이즈 제거 단계를 추가함으로써 탐구하고, 계산 증가로 생성 성능이 어떻게 더 개선될 수 있는지 조사한다. 구체적으로, 확산 샘플링 과정에서 더 나은 노이즈를 식별하기 위한 검색 문제를 고려한다. 우리는 피드백을 제공하는 확인자와 더 나은 노이즈 후보를 찾기 위해 사용되는 알고리즘을 따라 설계 공간을 구조화한다. 클래스 조건부 및 텍스트 조건부 이미지 생성 벤치마크에 대한 광범위한 실험을 통해, 확산 모델에 의해 생성된 샘플의 품질이 상당히 향상되는 것을 밝혀내며, 이미지의 복잡성과 함께, 프레임워크 구성 요소의 조합은 다양한 응용 시나리오와 일치하도록 특별히 선택될 수 있다.
English
Generative models have made significant impacts across various domains, largely due to their ability to scale during training by increasing data, computational resources, and model size, a phenomenon characterized by the scaling laws. Recent research has begun to explore inference-time scaling behavior in Large Language Models (LLMs), revealing how performance can further improve with additional computation during inference. Unlike LLMs, diffusion models inherently possess the flexibility to adjust inference-time computation via the number of denoising steps, although the performance gains typically flatten after a few dozen. In this work, we explore the inference-time scaling behavior of diffusion models beyond increasing denoising steps and investigate how the generation performance can further improve with increased computation. Specifically, we consider a search problem aimed at identifying better noises for the diffusion sampling process. We structure the design space along two axes: the verifiers used to provide feedback, and the algorithms used to find better noise candidates. Through extensive experiments on class-conditioned and text-conditioned image generation benchmarks, our findings reveal that increasing inference-time compute leads to substantial improvements in the quality of samples generated by diffusion models, and with the complicated nature of images, combinations of the components in the framework can be specifically chosen to conform with different application scenario.

Summary

AI-Generated Summary

PDF704January 17, 2025