Robusto-1-Datensatz: Vergleich von Menschen und VLMs bei realen Out-of-Distribution-Fragen zur autonomen Fahrzeugsteuerung aus Peru

Zusammenfassung

Da multimodale Grundlagenmodelle experimentell in selbstfahrenden Autos eingesetzt werden, stellt sich die berechtigte Frage, wie ähnlich diese Systeme in bestimmten Fahrsituationen – insbesondere solchen, die außerhalb der Trainingsdaten liegen – auf menschliches Verhalten reagieren. Um dies zu untersuchen, erstellen wir den Robusto-1-Datensatz, der Dashcam-Videodaten aus Peru verwendet, einem Land mit einer der aggressivsten Fahrweisen weltweit, einem hohen Verkehrsaufkommen und einem hohen Anteil an ungewöhnlichen Straßenobjekten, die wahrscheinlich nie im Training gesehen wurden. Insbesondere um auf kognitiver Ebene vorläufig zu testen, wie gut visuell-sprachliche Grundlagenmodelle (VLMs) im Vergleich zu Menschen beim Fahren abschneiden, weichen wir von Bounding Boxes, Segmentierungskarten, Belegungskarten oder Trajektorien-Schätzungen ab und verwenden stattdessen multimodales visuelles Frage-Antworten (VQA). Dabei vergleichen wir sowohl Menschen als auch Maschinen mithilfe einer in der Systemneurowissenschaft bekannten Methode, der Repräsentationalen Ähnlichkeitsanalyse (RSA). Abhängig von der Art der Fragen, die wir stellen, und den Antworten, die diese Systeme geben, zeigen wir, in welchen Fällen VLMs und Menschen übereinstimmen oder abweichen, was es uns ermöglicht, ihre kognitive Ausrichtung zu untersuchen. Wir stellen fest, dass das Ausmaß der Übereinstimmung stark variiert, je nachdem, welche Art von Fragen an die jeweiligen Systeme (Menschen vs. VLMs) gestellt wird, was eine Lücke in ihrer Ausrichtung verdeutlicht.

English

As multimodal foundational models start being deployed experimentally in Self-Driving cars, a reasonable question we ask ourselves is how similar to humans do these systems respond in certain driving situations -- especially those that are out-of-distribution? To study this, we create the Robusto-1 dataset that uses dashcam video data from Peru, a country with one of the worst (aggressive) drivers in the world, a high traffic index, and a high ratio of bizarre to non-bizarre street objects likely never seen in training. In particular, to preliminarly test at a cognitive level how well Foundational Visual Language Models (VLMs) compare to Humans in Driving, we move away from bounding boxes, segmentation maps, occupancy maps or trajectory estimation to multi-modal Visual Question Answering (VQA) comparing both humans and machines through a popular method in systems neuroscience known as Representational Similarity Analysis (RSA). Depending on the type of questions we ask and the answers these systems give, we will show in what cases do VLMs and Humans converge or diverge allowing us to probe on their cognitive alignment. We find that the degree of alignment varies significantly depending on the type of questions asked to each type of system (Humans vs VLMs), highlighting a gap in their alignment.

Robusto-1-Datensatz: Vergleich von Menschen und VLMs bei realen Out-of-Distribution-Fragen zur autonomen Fahrzeugsteuerung aus Peru

Robusto-1 Dataset: Comparing Humans and VLMs on real out-of-distribution Autonomous Driving VQA from Peru

Zusammenfassung

Summary

Support

Support