Skalierungseigenschaften von Diffusionsmodellen für perzeptive Aufgaben
Scaling Properties of Diffusion Models for Perceptual Tasks
November 12, 2024
Autoren: Rahul Ravishankar, Zeeshan Patel, Jathushan Rajasegaran, Jitendra Malik
cs.AI
Zusammenfassung
In diesem Artikel argumentieren wir, dass die iterative Berechnung mit Diffusionsmodellen ein leistungsstarkes Paradigma nicht nur für die Generierung, sondern auch für visuelle Wahrnehmungsaufgaben darstellt. Wir vereinen Aufgaben wie Tiefenschätzung, optischer Fluss und Segmentierung unter Bild-zu-Bild-Übersetzung und zeigen, wie Diffusionsmodelle von der Skalierung des Trainings und der Rechenzeit bei diesen Wahrnehmungsaufgaben profitieren. Durch eine sorgfältige Analyse dieser Skalierungsverhalten präsentieren wir verschiedene Techniken, um Diffusionsmodelle effizient für visuelle Wahrnehmungsaufgaben zu trainieren. Unsere Modelle erzielen eine verbesserte oder vergleichbare Leistung im Vergleich zu State-of-the-Art-Methoden unter Verwendung von signifikant weniger Daten und Rechenleistung. Um unseren Code und unsere Modelle zu verwenden, besuchen Sie https://scaling-diffusion-perception.github.io.
English
In this paper, we argue that iterative computation with diffusion models
offers a powerful paradigm for not only generation but also visual perception
tasks. We unify tasks such as depth estimation, optical flow, and segmentation
under image-to-image translation, and show how diffusion models benefit from
scaling training and test-time compute for these perception tasks. Through a
careful analysis of these scaling behaviors, we present various techniques to
efficiently train diffusion models for visual perception tasks. Our models
achieve improved or comparable performance to state-of-the-art methods using
significantly less data and compute. To use our code and models, see
https://scaling-diffusion-perception.github.io .Summary
AI-Generated Summary