WebWalker: Benchmarking von LLMs beim Durchqueren des Webs

WebWalker: Benchmarking LLMs in Web Traversal

January 13, 2025
Autoren: Jialong Wu, Wenbiao Yin, Yong Jiang, Zhenglin Wang, Zekun Xi, Runnan Fang, Deyu Zhou, Pengjun Xie, Fei Huang
cs.AI

Zusammenfassung

Die abrufgestützte Generierung (RAG) zeigt bemerkenswerte Leistungen bei Aufgaben im Bereich der offenen Fragebeantwortung. Traditionelle Suchmaschinen können jedoch oberflächliche Inhalte abrufen, was die Fähigkeit von LLMs zur Bewältigung komplexer, mehrschichtiger Informationen einschränkt. Um diesem Problem zu begegnen, stellen wir WebWalkerQA vor, einen Benchmark, der entworfen wurde, um die Fähigkeit von LLMs zur Durchführung von Webtraversierung zu bewerten. Er bewertet die Kapazität von LLMs, die Unterseiten einer Website zu durchlaufen, um systematisch hochwertige Daten zu extrahieren. Wir schlagen WebWalker vor, ein Multi-Agenten-Framework, das die menschenähnliche Webnavigation durch ein Erkunde-Kritiker-Paradigma nachahmt. Umfangreiche experimentelle Ergebnisse zeigen, dass WebWalkerQA anspruchsvoll ist und die Wirksamkeit von RAG in Kombination mit WebWalker demonstriert, durch horizontale und vertikale Integration in realen Szenarien.
English
Retrieval-augmented generation (RAG) demonstrates remarkable performance across tasks in open-domain question-answering. However, traditional search engines may retrieve shallow content, limiting the ability of LLMs to handle complex, multi-layered information. To address it, we introduce WebWalkerQA, a benchmark designed to assess the ability of LLMs to perform web traversal. It evaluates the capacity of LLMs to traverse a website's subpages to extract high-quality data systematically. We propose WebWalker, which is a multi-agent framework that mimics human-like web navigation through an explore-critic paradigm. Extensive experimental results show that WebWalkerQA is challenging and demonstrates the effectiveness of RAG combined with WebWalker, through the horizontal and vertical integration in real-world scenarios.

Summary

AI-Generated Summary

PDF183January 14, 2025