AlphaDrive: Entfesselung der Kraft von VLMs im autonomen Fahren durch Verstärkungslernen und logisches Schließen
AlphaDrive: Unleashing the Power of VLMs in Autonomous Driving via Reinforcement Learning and Reasoning
March 10, 2025
Autoren: Bo Jiang, Shaoyu Chen, Qian Zhang, Wenyu Liu, Xinggang Wang
cs.AI
Zusammenfassung
OpenAI o1 und DeepSeek R1 erreichen oder übertreffen sogar das Leistungsniveau menschlicher Experten in komplexen Bereichen wie Mathematik und Naturwissenschaften, wobei Reinforcement Learning (RL) und logisches Denken eine entscheidende Rolle spielen. Im Bereich des autonomen Fahrens haben neuere End-to-End-Modelle die Planungsleistung erheblich verbessert, kämpfen jedoch weiterhin mit langschwänzigen Problemen aufgrund begrenzter Alltagslogik und Denkfähigkeiten. Einige Studien integrieren Vision-Language-Modelle (VLMs) in das autonome Fahren, verlassen sich jedoch typischerweise auf vortrainierte Modelle mit einfachem Supervised Fine-Tuning (SFT) auf Fahrzeugdaten, ohne weitere Untersuchungen zu Trainingsstrategien oder Optimierungen, die speziell auf die Planung zugeschnitten sind. In diesem Artikel stellen wir AlphaDrive vor, ein RL- und Denkrahmen für VLMs im autonomen Fahren. AlphaDrive führt vier GRPO-basierte RL-Belohnungen ein, die speziell für die Planung entwickelt wurden, und verwendet eine zweistufige Planungsdenk-Trainingsstrategie, die SFT mit RL kombiniert. Dadurch verbessert AlphaDrive sowohl die Planungsleistung als auch die Trainingseffizienz im Vergleich zur alleinigen Verwendung von SFT oder ohne Denkfähigkeiten erheblich. Darüber hinaus freuen wir uns, festzustellen, dass AlphaDrive nach dem RL-Training einige emergente multimodale Planungsfähigkeiten aufweist, die entscheidend für die Verbesserung der Fahrsicherheit und -effizienz sind. Nach unserem besten Wissen ist AlphaDrive das erste System, das GRPO-basiertes RL mit Planungsdenken in das autonome Fahren integriert. Der Code wird veröffentlicht, um zukünftige Forschung zu erleichtern.
English
OpenAI o1 and DeepSeek R1 achieve or even surpass human expert-level
performance in complex domains like mathematics and science, with reinforcement
learning (RL) and reasoning playing a crucial role. In autonomous driving,
recent end-to-end models have greatly improved planning performance but still
struggle with long-tailed problems due to limited common sense and reasoning
abilities. Some studies integrate vision-language models (VLMs) into autonomous
driving, but they typically rely on pre-trained models with simple supervised
fine-tuning (SFT) on driving data, without further exploration of training
strategies or optimizations specifically tailored for planning. In this paper,
we propose AlphaDrive, a RL and reasoning framework for VLMs in autonomous
driving. AlphaDrive introduces four GRPO-based RL rewards tailored for planning
and employs a two-stage planning reasoning training strategy that combines SFT
with RL. As a result, AlphaDrive significantly improves both planning
performance and training efficiency compared to using only SFT or without
reasoning. Moreover, we are also excited to discover that, following RL
training, AlphaDrive exhibits some emergent multimodal planning capabilities,
which is critical for improving driving safety and efficiency. To the best of
our knowledge, AlphaDrive is the first to integrate GRPO-based RL with planning
reasoning into autonomous driving. Code will be released to facilitate future
research.Summary
AI-Generated Summary