Robusto-1-Datensatz: Vergleich von Menschen und VLMs bei realen Out-of-Distribution-Fragen zur autonomen Fahrzeugsteuerung aus Peru
Robusto-1 Dataset: Comparing Humans and VLMs on real out-of-distribution Autonomous Driving VQA from Peru
March 10, 2025
Autoren: Dunant Cusipuma, David Ortega, Victor Flores-Benites, Arturo Deza
cs.AI
Zusammenfassung
Da multimodale Grundlagenmodelle experimentell in selbstfahrenden Autos eingesetzt werden, stellt sich die berechtigte Frage, wie ähnlich diese Systeme in bestimmten Fahrsituationen – insbesondere solchen, die außerhalb der Trainingsdaten liegen – auf menschliches Verhalten reagieren. Um dies zu untersuchen, erstellen wir den Robusto-1-Datensatz, der Dashcam-Videodaten aus Peru verwendet, einem Land mit einer der aggressivsten Fahrweisen weltweit, einem hohen Verkehrsaufkommen und einem hohen Anteil an ungewöhnlichen Straßenobjekten, die wahrscheinlich nie im Training gesehen wurden. Insbesondere um auf kognitiver Ebene vorläufig zu testen, wie gut visuell-sprachliche Grundlagenmodelle (VLMs) im Vergleich zu Menschen beim Fahren abschneiden, weichen wir von Bounding Boxes, Segmentierungskarten, Belegungskarten oder Trajektorien-Schätzungen ab und verwenden stattdessen multimodales visuelles Frage-Antworten (VQA). Dabei vergleichen wir sowohl Menschen als auch Maschinen mithilfe einer in der Systemneurowissenschaft bekannten Methode, der Repräsentationalen Ähnlichkeitsanalyse (RSA). Abhängig von der Art der Fragen, die wir stellen, und den Antworten, die diese Systeme geben, zeigen wir, in welchen Fällen VLMs und Menschen übereinstimmen oder abweichen, was es uns ermöglicht, ihre kognitive Ausrichtung zu untersuchen. Wir stellen fest, dass das Ausmaß der Übereinstimmung stark variiert, je nachdem, welche Art von Fragen an die jeweiligen Systeme (Menschen vs. VLMs) gestellt wird, was eine Lücke in ihrer Ausrichtung verdeutlicht.
English
As multimodal foundational models start being deployed experimentally in
Self-Driving cars, a reasonable question we ask ourselves is how similar to
humans do these systems respond in certain driving situations -- especially
those that are out-of-distribution? To study this, we create the Robusto-1
dataset that uses dashcam video data from Peru, a country with one of the worst
(aggressive) drivers in the world, a high traffic index, and a high ratio of
bizarre to non-bizarre street objects likely never seen in training. In
particular, to preliminarly test at a cognitive level how well Foundational
Visual Language Models (VLMs) compare to Humans in Driving, we move away from
bounding boxes, segmentation maps, occupancy maps or trajectory estimation to
multi-modal Visual Question Answering (VQA) comparing both humans and machines
through a popular method in systems neuroscience known as Representational
Similarity Analysis (RSA). Depending on the type of questions we ask and the
answers these systems give, we will show in what cases do VLMs and Humans
converge or diverge allowing us to probe on their cognitive alignment. We find
that the degree of alignment varies significantly depending on the type of
questions asked to each type of system (Humans vs VLMs), highlighting a gap in
their alignment.Summary
AI-Generated Summary