Distillazione della Diffusione con Ottimizzazione Diretta delle Preferenze per il Completamento Efficiente di Scene 3D con LiDAR
Diffusion Distillation With Direct Preference Optimization For Efficient 3D LiDAR Scene Completion
April 15, 2025
Autori: An Zhaol, Shengyuan Zhang, Ling Yang, Zejian Li, Jiale Wu, Haoran Xu, AnYang Wei, Perry Pengyun GU Lingyun Sun
cs.AI
Abstract
L'applicazione dei modelli di diffusione nel completamento di scene 3D LiDAR è limitata a causa della lenta velocità di campionamento della diffusione. La distillazione del punteggio accelera il campionamento della diffusione, ma con un degrado delle prestazioni, mentre l'addestramento posteriore con l'ottimizzazione diretta della politica (DPO) migliora le prestazioni utilizzando dati di preferenza. Questo articolo propone Distillation-DPO, un nuovo framework di distillazione della diffusione per il completamento di scene LiDAR con allineamento delle preferenze. In primo luogo, il modello studente genera scene di completamento accoppiate con diversi rumori iniziali. In secondo luogo, utilizzando le metriche di valutazione delle scene LiDAR come preferenza, costruiamo coppie di campioni vincenti e perdenti. Tale costruzione è ragionevole, poiché la maggior parte delle metriche delle scene LiDAR sono informative ma non differenziabili per essere ottimizzate direttamente. In terzo luogo, Distillation-DPO ottimizza il modello studente sfruttando la differenza nelle funzioni di punteggio tra i modelli insegnante e studente sulle scene di completamento accoppiate. Tale procedura viene ripetuta fino alla convergenza. Esperimenti estensivi dimostrano che, rispetto ai modelli di diffusione per il completamento di scene LiDAR all'avanguardia, Distillation-DPO raggiunge un completamento di scene di qualità superiore mentre accelera la velocità di completamento di oltre 5 volte. Il nostro metodo è il primo a esplorare l'adozione dell'apprendimento delle preferenze nella distillazione, per quanto ne sappiamo, e fornisce approfondimenti sulla distillazione allineata alle preferenze. Il nostro codice è disponibile pubblicamente su https://github.com/happyw1nd/DistillationDPO.
English
The application of diffusion models in 3D LiDAR scene completion is limited
due to diffusion's slow sampling speed. Score distillation accelerates
diffusion sampling but with performance degradation, while post-training with
direct policy optimization (DPO) boosts performance using preference data. This
paper proposes Distillation-DPO, a novel diffusion distillation framework for
LiDAR scene completion with preference aligment. First, the student model
generates paired completion scenes with different initial noises. Second, using
LiDAR scene evaluation metrics as preference, we construct winning and losing
sample pairs. Such construction is reasonable, since most LiDAR scene metrics
are informative but non-differentiable to be optimized directly. Third,
Distillation-DPO optimizes the student model by exploiting the difference in
score functions between the teacher and student models on the paired completion
scenes. Such procedure is repeated until convergence. Extensive experiments
demonstrate that, compared to state-of-the-art LiDAR scene completion diffusion
models, Distillation-DPO achieves higher-quality scene completion while
accelerating the completion speed by more than 5-fold. Our method is the first
to explore adopting preference learning in distillation to the best of our
knowledge and provide insights into preference-aligned distillation. Our code
is public available on https://github.com/happyw1nd/DistillationDPO.Summary
AI-Generated Summary