ChatPaper.aiChatPaper

Allineare la Denoising Generativa con Obiettivi Discriminativi Libera il Potenziale della Diffusione per la Percezione Visiva

Aligning Generative Denoising with Discriminative Objectives Unleashes Diffusion for Visual Perception

April 15, 2025
Autori: Ziqi Pang, Xin Xu, Yu-Xiong Wang
cs.AI

Abstract

Con il successo della generazione di immagini, i modelli di diffusione generativa vengono sempre più adottati per compiti discriminativi, poiché la generazione di pixel fornisce un'interfaccia di percezione unificata. Tuttavia, il riutilizzo diretto del processo di denoising generativo per obiettivi discriminativi rivela lacune critiche raramente affrontate in precedenza. I modelli generativi tollerano errori di campionamento intermedi se la distribuzione finale rimane plausibile, ma i compiti discriminativi richiedono una precisione rigorosa in ogni fase, come evidenziato in compiti multimodali impegnativi come la segmentazione di immagini con riferimenti. Motivati da questa lacuna, analizziamo e miglioriamo l'allineamento tra i processi di diffusione generativa e i compiti di percezione, concentrandoci su come la qualità della percezione evolve durante il denoising. Scopriamo: (1) i passaggi iniziali di denoising contribuiscono in modo sproporzionato alla qualità della percezione, spingendoci a proporre obiettivi di apprendimento personalizzati che riflettono i contributi variabili dei diversi intervalli temporali; (2) i passaggi successivi di denoising mostrano un inaspettato degrado della percezione, evidenziando la sensibilità agli spostamenti nella distribuzione di addestramento-denoising, affrontati con la nostra tecnica di data augmentation specifica per la diffusione; e (3) i processi generativi abilitano in modo unico l'interattività, fungendo da interfacce utente controllabili adattabili a prompt correttivi in interazioni multi-round. Le nostre intuizioni migliorano significativamente i modelli di percezione basati sulla diffusione senza modifiche architetturali, raggiungendo prestazioni all'avanguardia nella stima della profondità, nella segmentazione di immagini con riferimenti e in compiti di percezione generalisti. Il codice è disponibile all'indirizzo https://github.com/ziqipang/ADDP.
English
With the success of image generation, generative diffusion models are increasingly adopted for discriminative tasks, as pixel generation provides a unified perception interface. However, directly repurposing the generative denoising process for discriminative objectives reveals critical gaps rarely addressed previously. Generative models tolerate intermediate sampling errors if the final distribution remains plausible, but discriminative tasks require rigorous accuracy throughout, as evidenced in challenging multi-modal tasks like referring image segmentation. Motivated by this gap, we analyze and enhance alignment between generative diffusion processes and perception tasks, focusing on how perception quality evolves during denoising. We find: (1) earlier denoising steps contribute disproportionately to perception quality, prompting us to propose tailored learning objectives reflecting varying timestep contributions; (2) later denoising steps show unexpected perception degradation, highlighting sensitivity to training-denoising distribution shifts, addressed by our diffusion-tailored data augmentation; and (3) generative processes uniquely enable interactivity, serving as controllable user interfaces adaptable to correctional prompts in multi-round interactions. Our insights significantly improve diffusion-based perception models without architectural changes, achieving state-of-the-art performance on depth estimation, referring image segmentation, and generalist perception tasks. Code available at https://github.com/ziqipang/ADDP.

Summary

AI-Generated Summary

PDF12April 16, 2025