Le VLM sono pronti per la guida autonoma? Uno studio empirico dalle prospettive di affidabilità, dati e metriche
Are VLMs Ready for Autonomous Driving? An Empirical Study from the Reliability, Data, and Metric Perspectives
January 7, 2025
Autori: Shaoyuan Xie, Lingdong Kong, Yuhao Dong, Chonghao Sima, Wenwei Zhang, Qi Alfred Chen, Ziwei Liu, Liang Pan
cs.AI
Abstract
I recenti progressi nei Modelli Visione-Linguaggio (VLM) hanno suscitato interesse per il loro utilizzo nella guida autonoma, in particolare nella generazione di decisioni di guida interpretabili attraverso il linguaggio naturale. Tuttavia, l'assunzione che i VLM forniscono intrinsecamente spiegazioni visivamente fondate, affidabili e interpretabili per la guida rimane in gran parte inesaminata. Per affrontare questa lacuna, presentiamo DriveBench, un dataset di benchmark progettato per valutare l'affidabilità dei VLM in 17 contesti (input puliti, corrotti e solo testuali), che comprende 19.200 frame, 20.498 coppie domanda-risposta, tre tipi di domande, quattro compiti di guida principali e un totale di 12 VLM popolari. Le nostre scoperte rivelano che i VLM spesso generano risposte plausibili derivate da conoscenze generali o indizi testuali piuttosto che da un ancoraggio visivo vero, specialmente in presenza di input visivi degradati o mancanti. Questo comportamento, mascherato da squilibri nel dataset e da metriche di valutazione insufficienti, comporta rischi significativi in scenari critici per la sicurezza come la guida autonoma. Osserviamo inoltre che i VLM faticano con il ragionamento multimodale e mostrano una sensibilità accentuata alle corruzioni degli input, portando a inconsistenze nelle prestazioni. Per affrontare queste sfide, proponiamo metriche di valutazione raffinate che danno priorità a un ancoraggio visivo robusto e a una comprensione multimodale. Inoltre, sottolineiamo il potenziale di sfruttare la consapevolezza delle corruzioni dei VLM per migliorarne l'affidabilità, offrendo una roadmap per lo sviluppo di sistemi decisionali più affidabili e interpretabili in contesti reali di guida autonoma. Il toolkit di benchmark è pubblicamente accessibile.
English
Recent advancements in Vision-Language Models (VLMs) have sparked interest in
their use for autonomous driving, particularly in generating interpretable
driving decisions through natural language. However, the assumption that VLMs
inherently provide visually grounded, reliable, and interpretable explanations
for driving remains largely unexamined. To address this gap, we introduce
DriveBench, a benchmark dataset designed to evaluate VLM reliability across 17
settings (clean, corrupted, and text-only inputs), encompassing 19,200 frames,
20,498 question-answer pairs, three question types, four mainstream driving
tasks, and a total of 12 popular VLMs. Our findings reveal that VLMs often
generate plausible responses derived from general knowledge or textual cues
rather than true visual grounding, especially under degraded or missing visual
inputs. This behavior, concealed by dataset imbalances and insufficient
evaluation metrics, poses significant risks in safety-critical scenarios like
autonomous driving. We further observe that VLMs struggle with multi-modal
reasoning and display heightened sensitivity to input corruptions, leading to
inconsistencies in performance. To address these challenges, we propose refined
evaluation metrics that prioritize robust visual grounding and multi-modal
understanding. Additionally, we highlight the potential of leveraging VLMs'
awareness of corruptions to enhance their reliability, offering a roadmap for
developing more trustworthy and interpretable decision-making systems in
real-world autonomous driving contexts. The benchmark toolkit is publicly
accessible.Summary
AI-Generated Summary