DiffusionDrive: Modello di Diffusione Troncato per la Guida Autonoma End-to-End
DiffusionDrive: Truncated Diffusion Model for End-to-End Autonomous Driving
November 22, 2024
Autori: Bencheng Liao, Shaoyu Chen, Haoran Yin, Bo Jiang, Cheng Wang, Sixu Yan, Xinbang Zhang, Xiangyu Li, Ying Zhang, Qian Zhang, Xinggang Wang
cs.AI
Abstract
Di recente, il modello di diffusione è emerso come una potente tecnica generativa per l'apprendimento delle politiche robotiche, in grado di modellare distribuzioni di azioni multi-modalità. Sfruttare la sua capacità per la guida autonoma end-to-end è una direzione promettente. Tuttavia, i numerosi passaggi di denoising nella politica di diffusione robotica e la natura più dinamica e aperta delle scene del traffico pongono notevoli sfide per generare azioni di guida diverse a velocità in tempo reale. Per affrontare queste sfide, proponiamo una nuova politica di diffusione troncata che incorpora ancoraggi multi-modalità precedenti e tronca il programma di diffusione, consentendo al modello di apprendere il denoising dalla distribuzione gaussiana ancorata alla distribuzione multi-modalità delle azioni di guida. Inoltre, progettiamo un efficiente decodificatore a diffusione a cascata per un'interazione migliorata con il contesto della scena condizionale. Il modello proposto, DiffusionDrive, dimostra una riduzione di 10 volte nei passaggi di denoising rispetto alla politica di diffusione standard, offrendo una maggiore diversità e qualità in soli 2 passaggi. Sul dataset NAVSIM orientato alla pianificazione, con la spina dorsale ResNet-34 allineata, DiffusionDrive raggiunge 88.1 PDMS senza fronzoli, stabilendo un nuovo record, mentre funziona a una velocità in tempo reale di 45 FPS su un NVIDIA 4090. I risultati qualitativi su scenari sfidanti confermano ulteriormente che DiffusionDrive può generare in modo robusto diverse azioni di guida plausibili. Il codice e il modello saranno disponibili su https://github.com/hustvl/DiffusionDrive.
English
Recently, the diffusion model has emerged as a powerful generative technique
for robotic policy learning, capable of modeling multi-mode action
distributions. Leveraging its capability for end-to-end autonomous driving is a
promising direction. However, the numerous denoising steps in the robotic
diffusion policy and the more dynamic, open-world nature of traffic scenes pose
substantial challenges for generating diverse driving actions at a real-time
speed. To address these challenges, we propose a novel truncated diffusion
policy that incorporates prior multi-mode anchors and truncates the diffusion
schedule, enabling the model to learn denoising from anchored Gaussian
distribution to the multi-mode driving action distribution. Additionally, we
design an efficient cascade diffusion decoder for enhanced interaction with
conditional scene context. The proposed model, DiffusionDrive, demonstrates
10times reduction in denoising steps compared to vanilla diffusion policy,
delivering superior diversity and quality in just 2 steps. On the
planning-oriented NAVSIM dataset, with the aligned ResNet-34 backbone,
DiffusionDrive achieves 88.1 PDMS without bells and whistles, setting a new
record, while running at a real-time speed of 45 FPS on an NVIDIA 4090.
Qualitative results on challenging scenarios further confirm that
DiffusionDrive can robustly generate diverse plausible driving actions. Code
and model will be available at https://github.com/hustvl/DiffusionDrive.Summary
AI-Generated Summary