Unkontrolliert und übersehen: Die Checkbox-Blindstelle in großen Sprachmodellen mit CheckboxQA angehen
Unchecked and Overlooked: Addressing the Checkbox Blind Spot in Large Language Models with CheckboxQA
April 14, 2025
Autoren: Michał Turski, Mateusz Chiliński, Łukasz Borchmann
cs.AI
Zusammenfassung
Checkboxen sind entscheidend in der realen Dokumentenverarbeitung, wo das Vorhandensein oder Fehlen von Häkchen direkt die Datenextraktion und Entscheidungsprozesse beeinflusst. Trotz der starken Leistung von großen Vision- und Sprachmodellen bei einer Vielzahl von Aufgaben, haben sie Schwierigkeiten bei der Interpretation von ankreuzbarem Inhalt. Diese Herausforderung wird besonders dringlich in Branchen, in denen ein einziger übersehener Haken zu kostspieligen regulatorischen oder vertraglichen Fehlern führen kann. Um diese Lücke zu schließen, stellen wir das CheckboxQA-Dataset vor, eine gezielte Ressource, die entwickelt wurde, um die Modellleistung bei checkboxbezogenen Aufgaben zu bewerten und zu verbessern. Es offenbart die Grenzen aktueller Modelle und dient als wertvolles Werkzeug zur Weiterentwicklung von Dokumentenverständnissystemen, mit bedeutenden Auswirkungen auf Anwendungen in Bereichen wie Legal Tech und Finanzen.
Das Dataset ist öffentlich verfügbar unter:
https://github.com/Snowflake-Labs/CheckboxQA
English
Checkboxes are critical in real-world document processing where the presence
or absence of ticks directly informs data extraction and decision-making
processes. Yet, despite the strong performance of Large Vision and Language
Models across a wide range of tasks, they struggle with interpreting checkable
content. This challenge becomes particularly pressing in industries where a
single overlooked checkbox may lead to costly regulatory or contractual
oversights. To address this gap, we introduce the CheckboxQA dataset, a
targeted resource designed to evaluate and improve model performance on
checkbox-related tasks. It reveals the limitations of current models and serves
as a valuable tool for advancing document comprehension systems, with
significant implications for applications in sectors such as legal tech and
finance.
The dataset is publicly available at:
https://github.com/Snowflake-Labs/CheckboxQASummary
AI-Generated Summary