Le VLM sono pronti per la guida autonoma? Uno studio empirico dalle prospettive di affidabilità, dati e metriche

Abstract

I recenti progressi nei Modelli Visione-Linguaggio (VLM) hanno suscitato interesse per il loro utilizzo nella guida autonoma, in particolare nella generazione di decisioni di guida interpretabili attraverso il linguaggio naturale. Tuttavia, l'assunzione che i VLM forniscono intrinsecamente spiegazioni visivamente fondate, affidabili e interpretabili per la guida rimane in gran parte inesaminata. Per affrontare questa lacuna, presentiamo DriveBench, un dataset di benchmark progettato per valutare l'affidabilità dei VLM in 17 contesti (input puliti, corrotti e solo testuali), che comprende 19.200 frame, 20.498 coppie domanda-risposta, tre tipi di domande, quattro compiti di guida principali e un totale di 12 VLM popolari. Le nostre scoperte rivelano che i VLM spesso generano risposte plausibili derivate da conoscenze generali o indizi testuali piuttosto che da un ancoraggio visivo vero, specialmente in presenza di input visivi degradati o mancanti. Questo comportamento, mascherato da squilibri nel dataset e da metriche di valutazione insufficienti, comporta rischi significativi in scenari critici per la sicurezza come la guida autonoma. Osserviamo inoltre che i VLM faticano con il ragionamento multimodale e mostrano una sensibilità accentuata alle corruzioni degli input, portando a inconsistenze nelle prestazioni. Per affrontare queste sfide, proponiamo metriche di valutazione raffinate che danno priorità a un ancoraggio visivo robusto e a una comprensione multimodale. Inoltre, sottolineiamo il potenziale di sfruttare la consapevolezza delle corruzioni dei VLM per migliorarne l'affidabilità, offrendo una roadmap per lo sviluppo di sistemi decisionali più affidabili e interpretabili in contesti reali di guida autonoma. Il toolkit di benchmark è pubblicamente accessibile.

English

Recent advancements in Vision-Language Models (VLMs) have sparked interest in their use for autonomous driving, particularly in generating interpretable driving decisions through natural language. However, the assumption that VLMs inherently provide visually grounded, reliable, and interpretable explanations for driving remains largely unexamined. To address this gap, we introduce DriveBench, a benchmark dataset designed to evaluate VLM reliability across 17 settings (clean, corrupted, and text-only inputs), encompassing 19,200 frames, 20,498 question-answer pairs, three question types, four mainstream driving tasks, and a total of 12 popular VLMs. Our findings reveal that VLMs often generate plausible responses derived from general knowledge or textual cues rather than true visual grounding, especially under degraded or missing visual inputs. This behavior, concealed by dataset imbalances and insufficient evaluation metrics, poses significant risks in safety-critical scenarios like autonomous driving. We further observe that VLMs struggle with multi-modal reasoning and display heightened sensitivity to input corruptions, leading to inconsistencies in performance. To address these challenges, we propose refined evaluation metrics that prioritize robust visual grounding and multi-modal understanding. Additionally, we highlight the potential of leveraging VLMs' awareness of corruptions to enhance their reliability, offering a roadmap for developing more trustworthy and interpretable decision-making systems in real-world autonomous driving contexts. The benchmark toolkit is publicly accessible.

Le VLM sono pronti per la guida autonoma? Uno studio empirico dalle prospettive di affidabilità, dati e metriche

Are VLMs Ready for Autonomous Driving? An Empirical Study from the Reliability, Data, and Metric Perspectives

Abstract

Summary

Support