ReFocus: Modifica Visiva come una Catena di Pensiero per la Comprensione Strutturata delle Immagini
ReFocus: Visual Editing as a Chain of Thought for Structured Image Understanding
January 9, 2025
Autori: Xingyu Fu, Minqian Liu, Zhengyuan Yang, John Corring, Yijuan Lu, Jianwei Yang, Dan Roth, Dinei Florencio, Cha Zhang
cs.AI
Abstract
La comprensione strutturata delle immagini, come l'interpretazione di tabelle e grafici, richiede di riorientarsi strategicamente tra varie strutture e testi all'interno di un'immagine, formando una sequenza di ragionamento per giungere alla risposta finale. Tuttavia, attuali modelli linguistici multimodali (LLM) di grandi dimensioni mancano di questa capacità di attenzione selettiva multihop. In questo lavoro, presentiamo ReFocus, un framework semplice ma efficace che dota i LLM multimodali della capacità di generare "pensieri visivi" eseguendo una modifica visuale sull'immagine di input attraverso codice, spostando e perfezionando i loro focus visivi. In particolare, ReFocus consente ai LLM multimodali di generare codici Python per chiamare strumenti e modificare l'immagine di input, disegnando sequenzialmente riquadri, evidenziando sezioni e mascherando aree, potenziando così il processo di ragionamento visivo. Sperimentiamo su una vasta gamma di compiti di comprensione strutturata delle immagini che coinvolgono tabelle e grafici. ReFocus migliora notevolmente le prestazioni su tutti i compiti rispetto a GPT-4o senza modifica visuale, ottenendo un guadagno medio del 11,0% sui compiti delle tabelle e del 6,8% sui compiti dei grafici. Presentiamo un'analisi approfondita degli effetti delle diverse modifiche visive e dei motivi per cui ReFocus può migliorare le prestazioni senza introdurre informazioni aggiuntive. Inoltre, raccogliamo un set di allenamento da 14k utilizzando ReFocus e dimostriamo che tale catena di pensiero visuale con informazioni intermedie offre una migliore supervisione rispetto ai dati standard di domande e risposte visive, ottenendo un guadagno medio dell'8,0% sullo stesso modello allenato con coppie di domande e risposte e del 2,6% rispetto a CoT.
English
Structured image understanding, such as interpreting tables and charts,
requires strategically refocusing across various structures and texts within an
image, forming a reasoning sequence to arrive at the final answer. However,
current multimodal large language models (LLMs) lack this multihop selective
attention capability. In this work, we introduce ReFocus, a simple yet
effective framework that equips multimodal LLMs with the ability to generate
"visual thoughts" by performing visual editing on the input image through code,
shifting and refining their visual focuses. Specifically, ReFocus enables
multimodal LLMs to generate Python codes to call tools and modify the input
image, sequentially drawing boxes, highlighting sections, and masking out
areas, thereby enhancing the visual reasoning process. We experiment upon a
wide range of structured image understanding tasks involving tables and charts.
ReFocus largely improves performance on all tasks over GPT-4o without visual
editing, yielding an average gain of 11.0% on table tasks and 6.8% on chart
tasks. We present an in-depth analysis of the effects of different visual
edits, and reasons why ReFocus can improve the performance without introducing
additional information. Further, we collect a 14k training set using ReFocus,
and prove that such visual chain-of-thought with intermediate information
offers a better supervision than standard VQA data, reaching a 8.0% average
gain over the same model trained with QA pairs and 2.6% over CoT.Summary
AI-Generated Summary