Proprietà di scalabilità dei modelli di diffusione per compiti percettivi

Scaling Properties of Diffusion Models for Perceptual Tasks

November 12, 2024
Autori: Rahul Ravishankar, Zeeshan Patel, Jathushan Rajasegaran, Jitendra Malik
cs.AI

Abstract

In questo articolo, sosteniamo che il calcolo iterativo con modelli di diffusione offra un paradigma potente non solo per la generazione ma anche per compiti di percezione visiva. Unifichiamo compiti come stima della profondità, flusso ottico e segmentazione sotto la traduzione immagine-immagine, e mostriamo come i modelli di diffusione beneficino dal ridimensionamento dell'addestramento e del calcolo al momento del test per questi compiti di percezione. Attraverso un'analisi attenta di questi comportamenti di ridimensionamento, presentiamo varie tecniche per addestrare in modo efficiente i modelli di diffusione per compiti di percezione visiva. I nostri modelli raggiungono prestazioni migliorate o comparabili ai metodi all'avanguardia utilizzando significativamente meno dati e calcoli. Per utilizzare il nostro codice e i modelli, consultare https://scaling-diffusion-perception.github.io.
English
In this paper, we argue that iterative computation with diffusion models offers a powerful paradigm for not only generation but also visual perception tasks. We unify tasks such as depth estimation, optical flow, and segmentation under image-to-image translation, and show how diffusion models benefit from scaling training and test-time compute for these perception tasks. Through a careful analysis of these scaling behaviors, we present various techniques to efficiently train diffusion models for visual perception tasks. Our models achieve improved or comparable performance to state-of-the-art methods using significantly less data and compute. To use our code and models, see https://scaling-diffusion-perception.github.io .

Summary

AI-Generated Summary

PDF132November 13, 2024