Estão os Modelos de Linguagem de Visão (VLMs) Prontos para a Condução Autônoma? Um Estudo Empírico sob as Perspectivas de Confiabilidade, Dados e Métricas
Are VLMs Ready for Autonomous Driving? An Empirical Study from the Reliability, Data, and Metric Perspectives
January 7, 2025
Autores: Shaoyuan Xie, Lingdong Kong, Yuhao Dong, Chonghao Sima, Wenwei Zhang, Qi Alfred Chen, Ziwei Liu, Liang Pan
cs.AI
Resumo
Avanços recentes em Modelos de Visão-Linguagem (VLMs) despertaram interesse em sua utilização para direção autônoma, especialmente na geração de decisões de direção interpretáveis por meio de linguagem natural. No entanto, a suposição de que os VLMs fornecem de forma inerente explicações visualmente fundamentadas, confiáveis e interpretáveis para direção permanece amplamente não examinada. Para abordar essa lacuna, apresentamos o DriveBench, um conjunto de dados de referência projetado para avaliar a confiabilidade dos VLMs em 17 configurações (entradas limpas, corrompidas e apenas de texto), abrangendo 19.200 quadros, 20.498 pares pergunta-resposta, três tipos de perguntas, quatro tarefas de direção principais e um total de 12 VLMs populares. Nossas descobertas revelam que os VLMs frequentemente geram respostas plausíveis derivadas de conhecimento geral ou pistas textuais em vez de fundamentação visual real, especialmente sob entradas visuais degradadas ou ausentes. Esse comportamento, mascarado por desequilíbrios nos conjuntos de dados e métricas de avaliação insuficientes, apresenta riscos significativos em cenários críticos de segurança, como direção autônoma. Observamos ainda que os VLMs enfrentam dificuldades com raciocínio multi-modal e exibem sensibilidade aumentada a corrupções de entrada, resultando em inconsistências de desempenho. Para lidar com esses desafios, propomos métricas de avaliação refinadas que priorizam uma fundamentação visual robusta e compreensão multi-modal. Além disso, destacamos o potencial de aproveitar a consciência dos VLMs sobre corrupções para aprimorar sua confiabilidade, oferecendo um roteiro para o desenvolvimento de sistemas de tomada de decisão mais confiáveis e interpretáveis em contextos reais de direção autônoma. O conjunto de ferramentas de referência está publicamente acessível.
English
Recent advancements in Vision-Language Models (VLMs) have sparked interest in
their use for autonomous driving, particularly in generating interpretable
driving decisions through natural language. However, the assumption that VLMs
inherently provide visually grounded, reliable, and interpretable explanations
for driving remains largely unexamined. To address this gap, we introduce
DriveBench, a benchmark dataset designed to evaluate VLM reliability across 17
settings (clean, corrupted, and text-only inputs), encompassing 19,200 frames,
20,498 question-answer pairs, three question types, four mainstream driving
tasks, and a total of 12 popular VLMs. Our findings reveal that VLMs often
generate plausible responses derived from general knowledge or textual cues
rather than true visual grounding, especially under degraded or missing visual
inputs. This behavior, concealed by dataset imbalances and insufficient
evaluation metrics, poses significant risks in safety-critical scenarios like
autonomous driving. We further observe that VLMs struggle with multi-modal
reasoning and display heightened sensitivity to input corruptions, leading to
inconsistencies in performance. To address these challenges, we propose refined
evaluation metrics that prioritize robust visual grounding and multi-modal
understanding. Additionally, we highlight the potential of leveraging VLMs'
awareness of corruptions to enhance their reliability, offering a roadmap for
developing more trustworthy and interpretable decision-making systems in
real-world autonomous driving contexts. The benchmark toolkit is publicly
accessible.Summary
AI-Generated Summary