VLM(Variational Ladder Networks)는 자율 주행에 준비가 되어 있을까? 신뢰성, 데이터 및 측정 관점에서의 경험적 연구
Are VLMs Ready for Autonomous Driving? An Empirical Study from the Reliability, Data, and Metric Perspectives
January 7, 2025
저자: Shaoyuan Xie, Lingdong Kong, Yuhao Dong, Chonghao Sima, Wenwei Zhang, Qi Alfred Chen, Ziwei Liu, Liang Pan
cs.AI
초록
최근 Vision-Language Models (VLMs)의 발전은 자율 주행에 대한 관심을 불러일으키며, 특히 자연어를 통해 해석 가능한 주행 결정을 생성하는 데 사용되고 있다. 그러나 VLMs가 시각적으로 기반을 둔, 신뢰할 수 있고 해석 가능한 설명을 제공한다는 가정은 대부분 검증되지 않은 상태이다. 이러한 공백을 해소하기 위해, 우리는 VLM 신뢰성을 평가하기 위해 설계된 벤치마크 데이터셋인 DriveBench를 소개한다. 이 데이터셋은 17가지 설정(깨끗한, 손상된 및 텍스트만 포함된 입력)을 포함하며, 19,200프레임, 20,498개의 질문-답변 쌍, 세 가지 질문 유형, 네 가지 주요 주행 작업 및 총 12개의 인기 있는 VLMs를 포괄한다. 우리의 연구 결과는 VLMs가 종종 시각적 기반보다는 일반 지식이나 텍스트 단서에서 유도된 타당한 응답을 생성하는 경향이 있음을 보여주며, 특히 손상된 또는 누락된 시각적 입력 하에서 이러한 행동이 드러난다. 이러한 행동은 데이터셋의 불균형과 충분하지 않은 평가 지표에 의해 숨겨져 있으며, 자율 주행과 같은 안전 중요 시나리오에서 중대한 위험을 초래한다. 또한, VLMs가 다중 모달 추론에 어려움을 겪고 입력 손상에 대한 민감도가 높아 성능의 일관성이 떨어지는 것을 관찰했다. 이러한 도전에 대응하기 위해, 시각적 기반과 다중 모달 이해를 우선시하는 정교한 평가 지표를 제안한다. 게다가, VLMs가 손상을 감지하여 신뢰성을 향상시키는 잠재력을 강조하며, 실제 자율 주행 환경에서 더 신뢰할 수 있고 해석 가능한 의사 결정 시스템을 개발하기 위한 청사진을 제시한다. 이 벤치마크 툴킷은 공개적으로 이용 가능하다.
English
Recent advancements in Vision-Language Models (VLMs) have sparked interest in
their use for autonomous driving, particularly in generating interpretable
driving decisions through natural language. However, the assumption that VLMs
inherently provide visually grounded, reliable, and interpretable explanations
for driving remains largely unexamined. To address this gap, we introduce
DriveBench, a benchmark dataset designed to evaluate VLM reliability across 17
settings (clean, corrupted, and text-only inputs), encompassing 19,200 frames,
20,498 question-answer pairs, three question types, four mainstream driving
tasks, and a total of 12 popular VLMs. Our findings reveal that VLMs often
generate plausible responses derived from general knowledge or textual cues
rather than true visual grounding, especially under degraded or missing visual
inputs. This behavior, concealed by dataset imbalances and insufficient
evaluation metrics, poses significant risks in safety-critical scenarios like
autonomous driving. We further observe that VLMs struggle with multi-modal
reasoning and display heightened sensitivity to input corruptions, leading to
inconsistencies in performance. To address these challenges, we propose refined
evaluation metrics that prioritize robust visual grounding and multi-modal
understanding. Additionally, we highlight the potential of leveraging VLMs'
awareness of corruptions to enhance their reliability, offering a roadmap for
developing more trustworthy and interpretable decision-making systems in
real-world autonomous driving contexts. The benchmark toolkit is publicly
accessible.Summary
AI-Generated Summary