ChatPaper.aiChatPaper

Unkontrolliert und übersehen: Die Checkbox-Blindstelle in großen Sprachmodellen mit CheckboxQA angehen

Unchecked and Overlooked: Addressing the Checkbox Blind Spot in Large Language Models with CheckboxQA

April 14, 2025
Autoren: Michał Turski, Mateusz Chiliński, Łukasz Borchmann
cs.AI

Zusammenfassung

Checkboxen sind entscheidend in der realen Dokumentenverarbeitung, wo das Vorhandensein oder Fehlen von Häkchen direkt die Datenextraktion und Entscheidungsprozesse beeinflusst. Trotz der starken Leistung von großen Vision- und Sprachmodellen bei einer Vielzahl von Aufgaben, haben sie Schwierigkeiten bei der Interpretation von ankreuzbarem Inhalt. Diese Herausforderung wird besonders dringlich in Branchen, in denen ein einziger übersehener Haken zu kostspieligen regulatorischen oder vertraglichen Fehlern führen kann. Um diese Lücke zu schließen, stellen wir das CheckboxQA-Dataset vor, eine gezielte Ressource, die entwickelt wurde, um die Modellleistung bei checkboxbezogenen Aufgaben zu bewerten und zu verbessern. Es offenbart die Grenzen aktueller Modelle und dient als wertvolles Werkzeug zur Weiterentwicklung von Dokumentenverständnissystemen, mit bedeutenden Auswirkungen auf Anwendungen in Bereichen wie Legal Tech und Finanzen. Das Dataset ist öffentlich verfügbar unter: https://github.com/Snowflake-Labs/CheckboxQA
English
Checkboxes are critical in real-world document processing where the presence or absence of ticks directly informs data extraction and decision-making processes. Yet, despite the strong performance of Large Vision and Language Models across a wide range of tasks, they struggle with interpreting checkable content. This challenge becomes particularly pressing in industries where a single overlooked checkbox may lead to costly regulatory or contractual oversights. To address this gap, we introduce the CheckboxQA dataset, a targeted resource designed to evaluate and improve model performance on checkbox-related tasks. It reveals the limitations of current models and serves as a valuable tool for advancing document comprehension systems, with significant implications for applications in sectors such as legal tech and finance. The dataset is publicly available at: https://github.com/Snowflake-Labs/CheckboxQA

Summary

AI-Generated Summary

PDF42April 24, 2025