Distillazione della Diffusione con Ottimizzazione Diretta delle Preferenze per il Completamento Efficiente di Scene 3D con LiDAR

Abstract

L'applicazione dei modelli di diffusione nel completamento di scene 3D LiDAR è limitata a causa della lenta velocità di campionamento della diffusione. La distillazione del punteggio accelera il campionamento della diffusione, ma con un degrado delle prestazioni, mentre l'addestramento posteriore con l'ottimizzazione diretta della politica (DPO) migliora le prestazioni utilizzando dati di preferenza. Questo articolo propone Distillation-DPO, un nuovo framework di distillazione della diffusione per il completamento di scene LiDAR con allineamento delle preferenze. In primo luogo, il modello studente genera scene di completamento accoppiate con diversi rumori iniziali. In secondo luogo, utilizzando le metriche di valutazione delle scene LiDAR come preferenza, costruiamo coppie di campioni vincenti e perdenti. Tale costruzione è ragionevole, poiché la maggior parte delle metriche delle scene LiDAR sono informative ma non differenziabili per essere ottimizzate direttamente. In terzo luogo, Distillation-DPO ottimizza il modello studente sfruttando la differenza nelle funzioni di punteggio tra i modelli insegnante e studente sulle scene di completamento accoppiate. Tale procedura viene ripetuta fino alla convergenza. Esperimenti estensivi dimostrano che, rispetto ai modelli di diffusione per il completamento di scene LiDAR all'avanguardia, Distillation-DPO raggiunge un completamento di scene di qualità superiore mentre accelera la velocità di completamento di oltre 5 volte. Il nostro metodo è il primo a esplorare l'adozione dell'apprendimento delle preferenze nella distillazione, per quanto ne sappiamo, e fornisce approfondimenti sulla distillazione allineata alle preferenze. Il nostro codice è disponibile pubblicamente su https://github.com/happyw1nd/DistillationDPO.

English

The application of diffusion models in 3D LiDAR scene completion is limited due to diffusion's slow sampling speed. Score distillation accelerates diffusion sampling but with performance degradation, while post-training with direct policy optimization (DPO) boosts performance using preference data. This paper proposes Distillation-DPO, a novel diffusion distillation framework for LiDAR scene completion with preference aligment. First, the student model generates paired completion scenes with different initial noises. Second, using LiDAR scene evaluation metrics as preference, we construct winning and losing sample pairs. Such construction is reasonable, since most LiDAR scene metrics are informative but non-differentiable to be optimized directly. Third, Distillation-DPO optimizes the student model by exploiting the difference in score functions between the teacher and student models on the paired completion scenes. Such procedure is repeated until convergence. Extensive experiments demonstrate that, compared to state-of-the-art LiDAR scene completion diffusion models, Distillation-DPO achieves higher-quality scene completion while accelerating the completion speed by more than 5-fold. Our method is the first to explore adopting preference learning in distillation to the best of our knowledge and provide insights into preference-aligned distillation. Our code is public available on https://github.com/happyw1nd/DistillationDPO.

Distillazione della Diffusione con Ottimizzazione Diretta delle Preferenze per il Completamento Efficiente di Scene 3D con LiDAR

Diffusion Distillation With Direct Preference Optimization For Efficient 3D LiDAR Scene Completion

Abstract

Summary

Support

Support