AlphaDrive: Entfesselung der Kraft von VLMs im autonomen Fahren durch Verstärkungslernen und logisches Schließen

Zusammenfassung

OpenAI o1 und DeepSeek R1 erreichen oder übertreffen sogar das Leistungsniveau menschlicher Experten in komplexen Bereichen wie Mathematik und Naturwissenschaften, wobei Reinforcement Learning (RL) und logisches Denken eine entscheidende Rolle spielen. Im Bereich des autonomen Fahrens haben neuere End-to-End-Modelle die Planungsleistung erheblich verbessert, kämpfen jedoch weiterhin mit langschwänzigen Problemen aufgrund begrenzter Alltagslogik und Denkfähigkeiten. Einige Studien integrieren Vision-Language-Modelle (VLMs) in das autonome Fahren, verlassen sich jedoch typischerweise auf vortrainierte Modelle mit einfachem Supervised Fine-Tuning (SFT) auf Fahrzeugdaten, ohne weitere Untersuchungen zu Trainingsstrategien oder Optimierungen, die speziell auf die Planung zugeschnitten sind. In diesem Artikel stellen wir AlphaDrive vor, ein RL- und Denkrahmen für VLMs im autonomen Fahren. AlphaDrive führt vier GRPO-basierte RL-Belohnungen ein, die speziell für die Planung entwickelt wurden, und verwendet eine zweistufige Planungsdenk-Trainingsstrategie, die SFT mit RL kombiniert. Dadurch verbessert AlphaDrive sowohl die Planungsleistung als auch die Trainingseffizienz im Vergleich zur alleinigen Verwendung von SFT oder ohne Denkfähigkeiten erheblich. Darüber hinaus freuen wir uns, festzustellen, dass AlphaDrive nach dem RL-Training einige emergente multimodale Planungsfähigkeiten aufweist, die entscheidend für die Verbesserung der Fahrsicherheit und -effizienz sind. Nach unserem besten Wissen ist AlphaDrive das erste System, das GRPO-basiertes RL mit Planungsdenken in das autonome Fahren integriert. Der Code wird veröffentlicht, um zukünftige Forschung zu erleichtern.

English

OpenAI o1 and DeepSeek R1 achieve or even surpass human expert-level performance in complex domains like mathematics and science, with reinforcement learning (RL) and reasoning playing a crucial role. In autonomous driving, recent end-to-end models have greatly improved planning performance but still struggle with long-tailed problems due to limited common sense and reasoning abilities. Some studies integrate vision-language models (VLMs) into autonomous driving, but they typically rely on pre-trained models with simple supervised fine-tuning (SFT) on driving data, without further exploration of training strategies or optimizations specifically tailored for planning. In this paper, we propose AlphaDrive, a RL and reasoning framework for VLMs in autonomous driving. AlphaDrive introduces four GRPO-based RL rewards tailored for planning and employs a two-stage planning reasoning training strategy that combines SFT with RL. As a result, AlphaDrive significantly improves both planning performance and training efficiency compared to using only SFT or without reasoning. Moreover, we are also excited to discover that, following RL training, AlphaDrive exhibits some emergent multimodal planning capabilities, which is critical for improving driving safety and efficiency. To the best of our knowledge, AlphaDrive is the first to integrate GRPO-based RL with planning reasoning into autonomous driving. Code will be released to facilitate future research.

AlphaDrive: Entfesselung der Kraft von VLMs im autonomen Fahren durch Verstärkungslernen und logisches Schließen

AlphaDrive: Unleashing the Power of VLMs in Autonomous Driving via Reinforcement Learning and Reasoning

Zusammenfassung

Summary

Support

Support