확산 주행: 단축된 확산 모델을 이용한 자율 주행 종단 간 모델
DiffusionDrive: Truncated Diffusion Model for End-to-End Autonomous Driving
November 22, 2024
저자: Bencheng Liao, Shaoyu Chen, Haoran Yin, Bo Jiang, Cheng Wang, Sixu Yan, Xinbang Zhang, Xiangyu Li, Ying Zhang, Qian Zhang, Xinggang Wang
cs.AI
초록
최근 확산 모델이 로봇 정책 학습을 위한 강력한 생성 기법으로 등장했으며, 다중 모드 액션 분포를 모델링할 수 있는 능력을 갖추고 있습니다. 이 능력을 활용하여 엔드 투 엔드 자율 주행에 대한 방향은 유망합니다. 그러나 로봇 확산 정책에서 다수의 노이즈 제거 단계와 보다 동적이고 개방적인 실시간 속도에서 다양한 주행 액션을 생성하는 데 상당한 어려움이 있습니다. 이러한 도전에 대응하기 위해 우리는 새로운 절단된 확산 정책을 제안합니다. 이 정책은 이전 다중 모드 앵커를 통합하고 확산 일정을 절단하여 모델이 앵커된 가우시안 분포에서 다중 모드 주행 액션 분포로부터 노이즈 제거를 학습할 수 있도록 합니다. 또한 조건부 장면 컨텍스트와의 향상된 상호 작용을 위해 효율적인 캐스케이드 확산 디코더를 설계합니다. 제안된 모델인 DiffusionDrive는 바닐라 확산 정책 대비 노이즈 제거 단계를 10배 줄이고, 단 2단계에서 우수한 다양성과 품질을 제공합니다. ResNet-34 백본을 사용한 계획 중심 NAVSIM 데이터셋에서 DiffusionDrive는 88.1 PDMS를 달성하여 새로운 기록을 세우며, NVIDIA 4090에서 45 FPS의 실시간 속도로 실행됩니다. 어려운 시나리오에서의 질적 결과는 DiffusionDrive가 견고하게 다양한 타당한 주행 액션을 생성할 수 있다는 것을 더욱 확신시켜줍니다. 코드 및 모델은 https://github.com/hustvl/DiffusionDrive에서 사용할 수 있습니다.
English
Recently, the diffusion model has emerged as a powerful generative technique
for robotic policy learning, capable of modeling multi-mode action
distributions. Leveraging its capability for end-to-end autonomous driving is a
promising direction. However, the numerous denoising steps in the robotic
diffusion policy and the more dynamic, open-world nature of traffic scenes pose
substantial challenges for generating diverse driving actions at a real-time
speed. To address these challenges, we propose a novel truncated diffusion
policy that incorporates prior multi-mode anchors and truncates the diffusion
schedule, enabling the model to learn denoising from anchored Gaussian
distribution to the multi-mode driving action distribution. Additionally, we
design an efficient cascade diffusion decoder for enhanced interaction with
conditional scene context. The proposed model, DiffusionDrive, demonstrates
10times reduction in denoising steps compared to vanilla diffusion policy,
delivering superior diversity and quality in just 2 steps. On the
planning-oriented NAVSIM dataset, with the aligned ResNet-34 backbone,
DiffusionDrive achieves 88.1 PDMS without bells and whistles, setting a new
record, while running at a real-time speed of 45 FPS on an NVIDIA 4090.
Qualitative results on challenging scenarios further confirm that
DiffusionDrive can robustly generate diverse plausible driving actions. Code
and model will be available at https://github.com/hustvl/DiffusionDrive.Summary
AI-Generated Summary