WebWalker: Valutazione delle LLM nella Traversata Web

WebWalker: Benchmarking LLMs in Web Traversal

January 13, 2025
Autori: Jialong Wu, Wenbiao Yin, Yong Jiang, Zhenglin Wang, Zekun Xi, Runnan Fang, Deyu Zhou, Pengjun Xie, Fei Huang
cs.AI

Abstract

Il Generatore potenziato da recupero (RAG) dimostra una notevole performance attraverso compiti di question-answering in ambito aperto. Tuttavia, i motori di ricerca tradizionali potrebbero recuperare contenuti superficiali, limitando la capacità dei LLM di gestire informazioni complesse e stratificate. Per affrontare questo problema, presentiamo WebWalkerQA, un benchmark progettato per valutare la capacità dei LLM di eseguire attraversamenti web. Esso valuta la capacità dei LLM di navigare le sottopagine di un sito web per estrarre dati di alta qualità in modo sistematico. Proponiamo WebWalker, che è un framework multi-agente che imita la navigazione web simile a quella umana attraverso un paradigma di esplorazione-critica. Estesi risultati sperimentali mostrano che WebWalkerQA è impegnativo e dimostra l'efficacia di RAG combinato con WebWalker, attraverso l'integrazione orizzontale e verticale in scenari reali.
English
Retrieval-augmented generation (RAG) demonstrates remarkable performance across tasks in open-domain question-answering. However, traditional search engines may retrieve shallow content, limiting the ability of LLMs to handle complex, multi-layered information. To address it, we introduce WebWalkerQA, a benchmark designed to assess the ability of LLMs to perform web traversal. It evaluates the capacity of LLMs to traverse a website's subpages to extract high-quality data systematically. We propose WebWalker, which is a multi-agent framework that mimics human-like web navigation through an explore-critic paradigm. Extensive experimental results show that WebWalkerQA is challenging and demonstrates the effectiveness of RAG combined with WebWalker, through the horizontal and vertical integration in real-world scenarios.

Summary

AI-Generated Summary

PDF183January 14, 2025