ReFocus: Visuelle Bearbeitung als Gedankenkette für strukturiertes Bildverstehen
ReFocus: Visual Editing as a Chain of Thought for Structured Image Understanding
January 9, 2025
Autoren: Xingyu Fu, Minqian Liu, Zhengyuan Yang, John Corring, Yijuan Lu, Jianwei Yang, Dan Roth, Dinei Florencio, Cha Zhang
cs.AI
Zusammenfassung
Strukturiertes Bildverständnis, wie die Interpretation von Tabellen und Diagrammen, erfordert ein strategisches Umschalten zwischen verschiedenen Strukturen und Texten innerhalb eines Bildes, um eine Abfolge von Schlussfolgerungen zu bilden und zur endgültigen Antwort zu gelangen. Allerdings fehlt es aktuellen multimodalen großen Sprachmodellen (LLMs) an dieser Multihop-selektiven Aufmerksamkeitsfähigkeit. In dieser Arbeit stellen wir ReFocus vor, ein einfaches, aber effektives Framework, das multimodale LLMs mit der Fähigkeit ausstattet, "visuelle Gedanken" zu generieren, indem sie visuelle Bearbeitungen am Eingabebild durchführen, indem sie ihren visuellen Fokus durch Code verschieben und verfeinern. Speziell ermöglicht ReFocus multimodalen LLMs, Python-Codes zu generieren, um Werkzeuge aufzurufen und das Eingabebild zu modifizieren, indem sie sequenziell Kästen zeichnen, Abschnitte hervorheben und Bereiche maskieren, wodurch der visuelle Schlussfolgerungsprozess verbessert wird. Wir führen Experimente mit einer Vielzahl von strukturierten Bildverständnisaufgaben durch, die Tabellen und Diagramme umfassen. ReFocus verbessert die Leistung bei allen Aufgaben im Vergleich zu GPT-4o ohne visuelle Bearbeitung erheblich und erzielt einen durchschnittlichen Gewinn von 11,0 % bei Tabellenaufgaben und 6,8 % bei Diagrammaufgaben. Wir präsentieren eine eingehende Analyse der Auswirkungen verschiedener visueller Bearbeitungen und der Gründe, warum ReFocus die Leistung verbessern kann, ohne zusätzliche Informationen einzuführen. Darüber hinaus sammeln wir einen Trainingsdatensatz von 14k mit ReFocus und zeigen, dass eine solche visuelle Gedankenabfolge mit Zwischeninformationen eine bessere Überwachung bietet als standardmäßige VQA-Daten, wodurch ein durchschnittlicher Gewinn von 8,0 % gegenüber demselben Modell erreicht wird, das mit QA-Paaren trainiert wurde, und 2,6 % gegenüber CoT.
English
Structured image understanding, such as interpreting tables and charts,
requires strategically refocusing across various structures and texts within an
image, forming a reasoning sequence to arrive at the final answer. However,
current multimodal large language models (LLMs) lack this multihop selective
attention capability. In this work, we introduce ReFocus, a simple yet
effective framework that equips multimodal LLMs with the ability to generate
"visual thoughts" by performing visual editing on the input image through code,
shifting and refining their visual focuses. Specifically, ReFocus enables
multimodal LLMs to generate Python codes to call tools and modify the input
image, sequentially drawing boxes, highlighting sections, and masking out
areas, thereby enhancing the visual reasoning process. We experiment upon a
wide range of structured image understanding tasks involving tables and charts.
ReFocus largely improves performance on all tasks over GPT-4o without visual
editing, yielding an average gain of 11.0% on table tasks and 6.8% on chart
tasks. We present an in-depth analysis of the effects of different visual
edits, and reasons why ReFocus can improve the performance without introducing
additional information. Further, we collect a 14k training set using ReFocus,
and prove that such visual chain-of-thought with intermediate information
offers a better supervision than standard VQA data, reaching a 8.0% average
gain over the same model trained with QA pairs and 2.6% over CoT.Summary
AI-Generated Summary