Sightation Counts: Nutzung von Feedback sehender Nutzer beim Aufbau eines BLV-orientierten Datensatzes von Diagrammbeschreibungen
Sightation Counts: Leveraging Sighted User Feedback in Building a BLV-aligned Dataset of Diagram Descriptions
March 17, 2025
Autoren: Wan Ju Kang, Eunki Kim, Na Min An, Sangryul Kim, Haemin Choi, Ki Hoon Kwak, James Thorne
cs.AI
Zusammenfassung
Oft unterscheiden sich die Bedürfnisse und visuellen Fähigkeiten zwischen der Annotatorengruppe und der Endnutzergruppe. Die Erstellung detaillierter Diagrammbeschreibungen für blinde und sehbehinderte (BLV) Nutzer stellt eine solche herausfordernde Domäne dar. Sehende Annotatoren könnten visuelle Inhalte mühelos beschreiben, doch bestehende Studien haben gezeigt, dass direkte Erstellungen durch sie kostspielig, anfällig für Verzerrungen und nach BLV-Maßstäben etwas unzureichend sind. In dieser Studie bitten wir sehende Personen, Diagrammbeschreibungen zu bewerten – anstatt sie zu erstellen –, die von Vision-Language-Modellen (VLM) generiert wurden, die durch latente Überwachung mittels eines Mehrfach-Inferenzprozesses geleitet wurden. Die Bewertungen durch Sehende erweisen sich als effektiv und nützlich für professionelle Pädagogen, die selbst BLV sind und sehbehinderte Lernende unterrichten. Wir veröffentlichen Sightation, eine Sammlung von Diagrammbeschreibungsdatensätzen, die 5.000 Diagramme und 137.000 Beispiele für Vervollständigung, Präferenz, Retrieval, Fragebeantwortung und Denktraining umfassen, und demonstrieren deren Feinabstimmungspotenzial in verschiedenen nachgelagerten Aufgaben.
English
Often, the needs and visual abilities differ between the annotator group and
the end user group. Generating detailed diagram descriptions for blind and
low-vision (BLV) users is one such challenging domain. Sighted annotators could
describe visuals with ease, but existing studies have shown that direct
generations by them are costly, bias-prone, and somewhat lacking by BLV
standards. In this study, we ask sighted individuals to assess -- rather than
produce -- diagram descriptions generated by vision-language models (VLM) that
have been guided with latent supervision via a multi-pass inference. The
sighted assessments prove effective and useful to professional educators who
are themselves BLV and teach visually impaired learners. We release Sightation,
a collection of diagram description datasets spanning 5k diagrams and 137k
samples for completion, preference, retrieval, question answering, and
reasoning training purposes and demonstrate their fine-tuning potential in
various downstream tasks.Summary
AI-Generated Summary