Benutten van Webpagina-gebruikersinterfaces voor Visueel Begrip van Tekstrijke Inhoud
Harnessing Webpage UIs for Text-Rich Visual Understanding
October 17, 2024
Auteurs: Junpeng Liu, Tianyue Ou, Yifan Song, Yuxiao Qu, Wai Lam, Chenyan Xiong, Wenhu Chen, Graham Neubig, Xiang Yue
cs.AI
Samenvatting
Tekst-rijke visuele begripsvermogen - het vermogen om omgevingen te verwerken waar dichte tekstuele inhoud is geïntegreerd met visuele elementen - is cruciaal voor multimodale grote taalmodellen (MLLM's) om effectief te kunnen interageren met gestructureerde omgevingen. Om deze capaciteit te verbeteren, stellen we voor om algemene multimodale instructies te synthetiseren vanuit webpagina-gebruikersinterfaces met behulp van op tekst gebaseerde grote taalmodellen (LLM's). Ondanks het ontbreken van direct visuele invoer, zijn op tekst gebaseerde LLM's in staat om gestructureerde tekstrepresentaties van webpagina-toegankelijkheidsbomen te verwerken. Deze instructies worden vervolgens gekoppeld aan UI-screenshots om multimodale modellen te trainen. We introduceren MultiUI, een dataset met 7,3 miljoen voorbeelden van 1 miljoen websites, die diverse multimodale taken en UI-indelingen bestrijken. Modellen getraind op MultiUI excelleren niet alleen in web-UI-taken - met een verbetering tot wel 48% op VisualWebBench en een 19,1% boost in actie-accuraatheid op een webagentdataset Mind2Web - maar generaliseren ook verrassend goed naar niet-web-UI-taken en zelfs naar niet-UI-domeinen, zoals documentbegrip, OCR en grafiekinterpretatie. Deze resultaten benadrukken de brede toepasbaarheid van web-UI-gegevens voor het bevorderen van tekst-rijke visuele begripsvermogen in verschillende scenario's.
English
Text-rich visual understanding-the ability to process environments where
dense textual content is integrated with visuals-is crucial for multimodal
large language models (MLLMs) to interact effectively with structured
environments. To enhance this capability, we propose synthesizing general
multimodal instructions from webpage UIs using text-based large language models
(LLMs). Despite lacking direct visual input, text-based LLMs are able to
process structured text representations from webpage accessibility trees. These
instructions are then paired with UI screenshots to train multimodal models. We
introduce MultiUI, a dataset containing 7.3 million samples from 1 million
websites, covering diverse multimodal tasks and UI layouts. Models trained on
MultiUI not only excel in web UI tasks-achieving up to a 48\% improvement on
VisualWebBench and a 19.1\% boost in action accuracy on a web agent dataset
Mind2Web-but also generalize surprisingly well to non-web UI tasks and even to
non-UI domains, such as document understanding, OCR, and chart interpretation.
These results highlight the broad applicability of web UI data for advancing
text-rich visual understanding across various scenarios.Summary
AI-Generated Summary