ReFocus: Visuelle Bearbeitung als Gedankenkette für strukturiertes Bildverstehen

papers.abstract

Strukturiertes Bildverständnis, wie die Interpretation von Tabellen und Diagrammen, erfordert ein strategisches Umschalten zwischen verschiedenen Strukturen und Texten innerhalb eines Bildes, um eine Abfolge von Schlussfolgerungen zu bilden und zur endgültigen Antwort zu gelangen. Allerdings fehlt es aktuellen multimodalen großen Sprachmodellen (LLMs) an dieser Multihop-selektiven Aufmerksamkeitsfähigkeit. In dieser Arbeit stellen wir ReFocus vor, ein einfaches, aber effektives Framework, das multimodale LLMs mit der Fähigkeit ausstattet, "visuelle Gedanken" zu generieren, indem sie visuelle Bearbeitungen am Eingabebild durchführen, indem sie ihren visuellen Fokus durch Code verschieben und verfeinern. Speziell ermöglicht ReFocus multimodalen LLMs, Python-Codes zu generieren, um Werkzeuge aufzurufen und das Eingabebild zu modifizieren, indem sie sequenziell Kästen zeichnen, Abschnitte hervorheben und Bereiche maskieren, wodurch der visuelle Schlussfolgerungsprozess verbessert wird. Wir führen Experimente mit einer Vielzahl von strukturierten Bildverständnisaufgaben durch, die Tabellen und Diagramme umfassen. ReFocus verbessert die Leistung bei allen Aufgaben im Vergleich zu GPT-4o ohne visuelle Bearbeitung erheblich und erzielt einen durchschnittlichen Gewinn von 11,0 % bei Tabellenaufgaben und 6,8 % bei Diagrammaufgaben. Wir präsentieren eine eingehende Analyse der Auswirkungen verschiedener visueller Bearbeitungen und der Gründe, warum ReFocus die Leistung verbessern kann, ohne zusätzliche Informationen einzuführen. Darüber hinaus sammeln wir einen Trainingsdatensatz von 14k mit ReFocus und zeigen, dass eine solche visuelle Gedankenabfolge mit Zwischeninformationen eine bessere Überwachung bietet als standardmäßige VQA-Daten, wodurch ein durchschnittlicher Gewinn von 8,0 % gegenüber demselben Modell erreicht wird, das mit QA-Paaren trainiert wurde, und 2,6 % gegenüber CoT.

English

Structured image understanding, such as interpreting tables and charts, requires strategically refocusing across various structures and texts within an image, forming a reasoning sequence to arrive at the final answer. However, current multimodal large language models (LLMs) lack this multihop selective attention capability. In this work, we introduce ReFocus, a simple yet effective framework that equips multimodal LLMs with the ability to generate "visual thoughts" by performing visual editing on the input image through code, shifting and refining their visual focuses. Specifically, ReFocus enables multimodal LLMs to generate Python codes to call tools and modify the input image, sequentially drawing boxes, highlighting sections, and masking out areas, thereby enhancing the visual reasoning process. We experiment upon a wide range of structured image understanding tasks involving tables and charts. ReFocus largely improves performance on all tasks over GPT-4o without visual editing, yielding an average gain of 11.0% on table tasks and 6.8% on chart tasks. We present an in-depth analysis of the effects of different visual edits, and reasons why ReFocus can improve the performance without introducing additional information. Further, we collect a 14k training set using ReFocus, and prove that such visual chain-of-thought with intermediate information offers a better supervision than standard VQA data, reaching a 8.0% average gain over the same model trained with QA pairs and 2.6% over CoT.

ReFocus: Visuelle Bearbeitung als Gedankenkette für strukturiertes Bildverstehen

ReFocus: Visual Editing as a Chain of Thought for Structured Image Understanding

papers.abstract

Support