DiffusionDrive: Modello di Diffusione Troncato per la Guida Autonoma End-to-End

DiffusionDrive: Truncated Diffusion Model for End-to-End Autonomous Driving

November 22, 2024
Autori: Bencheng Liao, Shaoyu Chen, Haoran Yin, Bo Jiang, Cheng Wang, Sixu Yan, Xinbang Zhang, Xiangyu Li, Ying Zhang, Qian Zhang, Xinggang Wang
cs.AI

Abstract

Di recente, il modello di diffusione è emerso come una potente tecnica generativa per l'apprendimento delle politiche robotiche, in grado di modellare distribuzioni di azioni multi-modalità. Sfruttare la sua capacità per la guida autonoma end-to-end è una direzione promettente. Tuttavia, i numerosi passaggi di denoising nella politica di diffusione robotica e la natura più dinamica e aperta delle scene del traffico pongono notevoli sfide per generare azioni di guida diverse a velocità in tempo reale. Per affrontare queste sfide, proponiamo una nuova politica di diffusione troncata che incorpora ancoraggi multi-modalità precedenti e tronca il programma di diffusione, consentendo al modello di apprendere il denoising dalla distribuzione gaussiana ancorata alla distribuzione multi-modalità delle azioni di guida. Inoltre, progettiamo un efficiente decodificatore a diffusione a cascata per un'interazione migliorata con il contesto della scena condizionale. Il modello proposto, DiffusionDrive, dimostra una riduzione di 10 volte nei passaggi di denoising rispetto alla politica di diffusione standard, offrendo una maggiore diversità e qualità in soli 2 passaggi. Sul dataset NAVSIM orientato alla pianificazione, con la spina dorsale ResNet-34 allineata, DiffusionDrive raggiunge 88.1 PDMS senza fronzoli, stabilendo un nuovo record, mentre funziona a una velocità in tempo reale di 45 FPS su un NVIDIA 4090. I risultati qualitativi su scenari sfidanti confermano ulteriormente che DiffusionDrive può generare in modo robusto diverse azioni di guida plausibili. Il codice e il modello saranno disponibili su https://github.com/hustvl/DiffusionDrive.
English
Recently, the diffusion model has emerged as a powerful generative technique for robotic policy learning, capable of modeling multi-mode action distributions. Leveraging its capability for end-to-end autonomous driving is a promising direction. However, the numerous denoising steps in the robotic diffusion policy and the more dynamic, open-world nature of traffic scenes pose substantial challenges for generating diverse driving actions at a real-time speed. To address these challenges, we propose a novel truncated diffusion policy that incorporates prior multi-mode anchors and truncates the diffusion schedule, enabling the model to learn denoising from anchored Gaussian distribution to the multi-mode driving action distribution. Additionally, we design an efficient cascade diffusion decoder for enhanced interaction with conditional scene context. The proposed model, DiffusionDrive, demonstrates 10times reduction in denoising steps compared to vanilla diffusion policy, delivering superior diversity and quality in just 2 steps. On the planning-oriented NAVSIM dataset, with the aligned ResNet-34 backbone, DiffusionDrive achieves 88.1 PDMS without bells and whistles, setting a new record, while running at a real-time speed of 45 FPS on an NVIDIA 4090. Qualitative results on challenging scenarios further confirm that DiffusionDrive can robustly generate diverse plausible driving actions. Code and model will be available at https://github.com/hustvl/DiffusionDrive.

Summary

AI-Generated Summary

PDF152November 28, 2024