Estão os Modelos de Linguagem de Visão (VLMs) Prontos para a Condução Autônoma? Um Estudo Empírico sob as Perspectivas de Confiabilidade, Dados e Métricas

Resumo

Avanços recentes em Modelos de Visão-Linguagem (VLMs) despertaram interesse em sua utilização para direção autônoma, especialmente na geração de decisões de direção interpretáveis por meio de linguagem natural. No entanto, a suposição de que os VLMs fornecem de forma inerente explicações visualmente fundamentadas, confiáveis e interpretáveis para direção permanece amplamente não examinada. Para abordar essa lacuna, apresentamos o DriveBench, um conjunto de dados de referência projetado para avaliar a confiabilidade dos VLMs em 17 configurações (entradas limpas, corrompidas e apenas de texto), abrangendo 19.200 quadros, 20.498 pares pergunta-resposta, três tipos de perguntas, quatro tarefas de direção principais e um total de 12 VLMs populares. Nossas descobertas revelam que os VLMs frequentemente geram respostas plausíveis derivadas de conhecimento geral ou pistas textuais em vez de fundamentação visual real, especialmente sob entradas visuais degradadas ou ausentes. Esse comportamento, mascarado por desequilíbrios nos conjuntos de dados e métricas de avaliação insuficientes, apresenta riscos significativos em cenários críticos de segurança, como direção autônoma. Observamos ainda que os VLMs enfrentam dificuldades com raciocínio multi-modal e exibem sensibilidade aumentada a corrupções de entrada, resultando em inconsistências de desempenho. Para lidar com esses desafios, propomos métricas de avaliação refinadas que priorizam uma fundamentação visual robusta e compreensão multi-modal. Além disso, destacamos o potencial de aproveitar a consciência dos VLMs sobre corrupções para aprimorar sua confiabilidade, oferecendo um roteiro para o desenvolvimento de sistemas de tomada de decisão mais confiáveis e interpretáveis em contextos reais de direção autônoma. O conjunto de ferramentas de referência está publicamente acessível.

English

Recent advancements in Vision-Language Models (VLMs) have sparked interest in their use for autonomous driving, particularly in generating interpretable driving decisions through natural language. However, the assumption that VLMs inherently provide visually grounded, reliable, and interpretable explanations for driving remains largely unexamined. To address this gap, we introduce DriveBench, a benchmark dataset designed to evaluate VLM reliability across 17 settings (clean, corrupted, and text-only inputs), encompassing 19,200 frames, 20,498 question-answer pairs, three question types, four mainstream driving tasks, and a total of 12 popular VLMs. Our findings reveal that VLMs often generate plausible responses derived from general knowledge or textual cues rather than true visual grounding, especially under degraded or missing visual inputs. This behavior, concealed by dataset imbalances and insufficient evaluation metrics, poses significant risks in safety-critical scenarios like autonomous driving. We further observe that VLMs struggle with multi-modal reasoning and display heightened sensitivity to input corruptions, leading to inconsistencies in performance. To address these challenges, we propose refined evaluation metrics that prioritize robust visual grounding and multi-modal understanding. Additionally, we highlight the potential of leveraging VLMs' awareness of corruptions to enhance their reliability, offering a roadmap for developing more trustworthy and interpretable decision-making systems in real-world autonomous driving contexts. The benchmark toolkit is publicly accessible.

Estão os Modelos de Linguagem de Visão (VLMs) Prontos para a Condução Autônoma? Um Estudo Empírico sob as Perspectivas de Confiabilidade, Dados e Métricas

Are VLMs Ready for Autonomous Driving? An Empirical Study from the Reliability, Data, and Metric Perspectives

Resumo

Summary

Support