Schalingskenmerken van diffusiemodellen voor perceptuele taken
Scaling Properties of Diffusion Models for Perceptual Tasks
November 12, 2024
Auteurs: Rahul Ravishankar, Zeeshan Patel, Jathushan Rajasegaran, Jitendra Malik
cs.AI
Samenvatting
In dit artikel betogen we dat iteratieve berekening met diffusiemodellen een krachtig paradigma biedt voor niet alleen generatie, maar ook visuele perceptietaken. We verenigen taken zoals diepteschatting, optische stroming en segmentatie onder beeld-naar-beeld vertaling, en tonen hoe diffusiemodellen profiteren van het schalen van training en computatie op testtijd voor deze perceptietaken. Door een zorgvuldige analyse van deze schaalgedragingen presenteren we verschillende technieken om diffusiemodellen efficiënt te trainen voor visuele perceptietaken. Onze modellen behalen verbeterde of vergelijkbare prestaties ten opzichte van state-of-the-art methoden met aanzienlijk minder data en computatie. Voor het gebruik van onze code en modellen, zie https://scaling-diffusion-perception.github.io.
English
In this paper, we argue that iterative computation with diffusion models
offers a powerful paradigm for not only generation but also visual perception
tasks. We unify tasks such as depth estimation, optical flow, and segmentation
under image-to-image translation, and show how diffusion models benefit from
scaling training and test-time compute for these perception tasks. Through a
careful analysis of these scaling behaviors, we present various techniques to
efficiently train diffusion models for visual perception tasks. Our models
achieve improved or comparable performance to state-of-the-art methods using
significantly less data and compute. To use our code and models, see
https://scaling-diffusion-perception.github.io .Summary
AI-Generated Summary