Riduzione dei modelli di diffusione per il completamento efficiente di scene 3D LiDAR
Distilling Diffusion Models to Efficient 3D LiDAR Scene Completion
December 4, 2024
Autori: Shengyuan Zhang, An Zhao, Ling Yang, Zejian Li, Chenye Meng, Haoran Xu, Tianrun Chen, AnYang Wei, Perry Pengyun GU, Lingyun Sun
cs.AI
Abstract
I modelli di diffusione sono stati applicati al completamento della scena LiDAR 3D grazie alla loro forte stabilità nell'addestramento e all'alta qualità del completamento. Tuttavia, la lenta velocità di campionamento limita l'applicazione pratica dei modelli di completamento della scena basati sulla diffusione poiché i veicoli autonomi richiedono una percezione efficiente degli ambienti circostanti. Questo articolo propone un nuovo metodo di distillazione adattato per i modelli di completamento della scena LiDAR 3D, chiamato ScoreLiDAR, che raggiunge un completamento della scena efficiente ma di alta qualità. ScoreLiDAR consente al modello distillato di campionare in significativamente meno passaggi dopo la distillazione. Per migliorare la qualità del completamento, introduciamo anche una nuova Perdita Strutturale, che incoraggia il modello distillato a catturare la struttura geometrica della scena LiDAR 3D. La perdita contiene un termine a livello di scena che vincola la struttura olistica e un termine a livello di punto che vincola i punti di riferimento chiave e la loro configurazione relativa. Estesi esperimenti dimostrano che ScoreLiDAR accelera significativamente il tempo di completamento da 30,55 a 5,37 secondi per frame (>5 volte) su SemanticKITTI e raggiunge prestazioni superiori rispetto ai modelli di completamento della scena LiDAR 3D all'avanguardia. Il nostro codice è disponibile pubblicamente su https://github.com/happyw1nd/ScoreLiDAR.
English
Diffusion models have been applied to 3D LiDAR scene completion due to their
strong training stability and high completion quality. However, the slow
sampling speed limits the practical application of diffusion-based scene
completion models since autonomous vehicles require an efficient perception of
surrounding environments. This paper proposes a novel distillation method
tailored for 3D LiDAR scene completion models, dubbed ScoreLiDAR,
which achieves efficient yet high-quality scene completion. ScoreLiDAR enables
the distilled model to sample in significantly fewer steps after distillation.
To improve completion quality, we also introduce a novel Structural
Loss, which encourages the distilled model to capture the geometric structure
of the 3D LiDAR scene. The loss contains a scene-wise term constraining the
holistic structure and a point-wise term constraining the key landmark points
and their relative configuration. Extensive experiments demonstrate that
ScoreLiDAR significantly accelerates the completion time from 30.55 to 5.37
seconds per frame (>5times) on SemanticKITTI and achieves superior
performance compared to state-of-the-art 3D LiDAR scene completion models. Our
code is publicly available at https://github.com/happyw1nd/ScoreLiDAR.Summary
AI-Generated Summary