Schalingskenmerken van diffusiemodellen voor perceptuele taken

Samenvatting

In dit artikel betogen we dat iteratieve berekening met diffusiemodellen een krachtig paradigma biedt voor niet alleen generatie, maar ook visuele perceptietaken. We verenigen taken zoals diepteschatting, optische stroming en segmentatie onder beeld-naar-beeld vertaling, en tonen hoe diffusiemodellen profiteren van het schalen van training en computatie op testtijd voor deze perceptietaken. Door een zorgvuldige analyse van deze schaalgedragingen presenteren we verschillende technieken om diffusiemodellen efficiënt te trainen voor visuele perceptietaken. Onze modellen behalen verbeterde of vergelijkbare prestaties ten opzichte van state-of-the-art methoden met aanzienlijk minder data en computatie. Voor het gebruik van onze code en modellen, zie https://scaling-diffusion-perception.github.io.

English

In this paper, we argue that iterative computation with diffusion models offers a powerful paradigm for not only generation but also visual perception tasks. We unify tasks such as depth estimation, optical flow, and segmentation under image-to-image translation, and show how diffusion models benefit from scaling training and test-time compute for these perception tasks. Through a careful analysis of these scaling behaviors, we present various techniques to efficiently train diffusion models for visual perception tasks. Our models achieve improved or comparable performance to state-of-the-art methods using significantly less data and compute. To use our code and models, see https://scaling-diffusion-perception.github.io .

Schalingskenmerken van diffusiemodellen voor perceptuele taken

Scaling Properties of Diffusion Models for Perceptual Tasks

Samenvatting

Summary

Uitgelichte Papers

Het tijdperk van 1-bit LLM's: Alle grote taalmodellen zijn in 1,58 bits
The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits

DeepSeek-R1: Het stimuleren van redeneervermogen in LLM's via Reinforcement Learning
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

Technisch Rapport Qwen2.5
Qwen2.5 Technical Report

Support

Samenvatting

Summary

Uitgelichte Papers

Het tijdperk van 1-bit LLM's: Alle grote taalmodellen zijn in 1,58 bitsThe Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits

DeepSeek-R1: Het stimuleren van redeneervermogen in LLM's via Reinforcement LearningDeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

Technisch Rapport Qwen2.5Qwen2.5 Technical Report

Het tijdperk van 1-bit LLM's: Alle grote taalmodellen zijn in 1,58 bits
The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits

DeepSeek-R1: Het stimuleren van redeneervermogen in LLM's via Reinforcement Learning
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

Technisch Rapport Qwen2.5
Qwen2.5 Technical Report