Entschlüsselung von Leszielen aus Augenbewegungen
Decoding Reading Goals from Eye Movements
October 28, 2024
Autoren: Omer Shubi, Cfir Avraham Hadar, Yevgeni Berzak
cs.AI
Zusammenfassung
Leser können unterschiedliche Ziele in Bezug auf den Text haben, den sie lesen. Können diese Ziele aus dem Muster ihrer Augenbewegungen über den Text entschlüsselt werden? In dieser Arbeit untersuchen wir erstmals, ob es möglich ist, zwei Arten von Leszielen zu entschlüsseln, die im täglichen Leben häufig vorkommen: die Suche nach Informationen und das gewöhnliche Lesen. Unter Verwendung von umfangreichen Eye-Tracking-Daten wenden wir auf diese Aufgabe eine Vielzahl modernster Modelle für Augenbewegungen und Text an, die verschiedene architektonische und Datenrepräsentationsstrategien abdecken, und stellen zudem ein neues Modellensemble vor. Wir evaluieren diese Modelle systematisch auf drei Generalisierungsebenen: neues Textelement, neuer Teilnehmer und die Kombination beider. Wir stellen fest, dass Augenbewegungen äußerst wertvolle Signale für diese Aufgabe enthalten. Darüber hinaus führen wir eine Fehleranalyse durch, die auf früheren empirischen Erkenntnissen zu Unterschieden zwischen gewöhnlichem Lesen und der Suche nach Informationen aufbaut und reichhaltige textuelle Annotationen nutzt. Diese Analyse enthüllt Schlüsseleigenschaften von Textelementen und den Augenbewegungen der Teilnehmer, die zur Schwierigkeit der Aufgabe beitragen.
English
Readers can have different goals with respect to the text they are reading.
Can these goals be decoded from the pattern of their eye movements over the
text? In this work, we examine for the first time whether it is possible to
decode two types of reading goals that are common in daily life: information
seeking and ordinary reading. Using large scale eye-tracking data, we apply to
this task a wide range of state-of-the-art models for eye movements and text
that cover different architectural and data representation strategies, and
further introduce a new model ensemble. We systematically evaluate these models
at three levels of generalization: new textual item, new participant, and the
combination of both. We find that eye movements contain highly valuable signals
for this task. We further perform an error analysis which builds on prior
empirical findings on differences between ordinary reading and information
seeking and leverages rich textual annotations. This analysis reveals key
properties of textual items and participant eye movements that contribute to
the difficulty of the task.Summary
AI-Generated Summary