Skalierungseigenschaften von Diffusionsmodellen für perzeptive Aufgaben

Scaling Properties of Diffusion Models for Perceptual Tasks

November 12, 2024
Autoren: Rahul Ravishankar, Zeeshan Patel, Jathushan Rajasegaran, Jitendra Malik
cs.AI

Zusammenfassung

In diesem Artikel argumentieren wir, dass die iterative Berechnung mit Diffusionsmodellen ein leistungsstarkes Paradigma nicht nur für die Generierung, sondern auch für visuelle Wahrnehmungsaufgaben darstellt. Wir vereinen Aufgaben wie Tiefenschätzung, optischer Fluss und Segmentierung unter Bild-zu-Bild-Übersetzung und zeigen, wie Diffusionsmodelle von der Skalierung des Trainings und der Rechenzeit bei diesen Wahrnehmungsaufgaben profitieren. Durch eine sorgfältige Analyse dieser Skalierungsverhalten präsentieren wir verschiedene Techniken, um Diffusionsmodelle effizient für visuelle Wahrnehmungsaufgaben zu trainieren. Unsere Modelle erzielen eine verbesserte oder vergleichbare Leistung im Vergleich zu State-of-the-Art-Methoden unter Verwendung von signifikant weniger Daten und Rechenleistung. Um unseren Code und unsere Modelle zu verwenden, besuchen Sie https://scaling-diffusion-perception.github.io.
English
In this paper, we argue that iterative computation with diffusion models offers a powerful paradigm for not only generation but also visual perception tasks. We unify tasks such as depth estimation, optical flow, and segmentation under image-to-image translation, and show how diffusion models benefit from scaling training and test-time compute for these perception tasks. Through a careful analysis of these scaling behaviors, we present various techniques to efficiently train diffusion models for visual perception tasks. Our models achieve improved or comparable performance to state-of-the-art methods using significantly less data and compute. To use our code and models, see https://scaling-diffusion-perception.github.io .

Summary

AI-Generated Summary

PDF132November 13, 2024