WebWalker: Avaliação de LLMs na Traversia Web

WebWalker: Benchmarking LLMs in Web Traversal

January 13, 2025
Autores: Jialong Wu, Wenbiao Yin, Yong Jiang, Zhenglin Wang, Zekun Xi, Runnan Fang, Deyu Zhou, Pengjun Xie, Fei Huang
cs.AI

Resumo

A geração com recuperação aumentada (RAG) demonstra um desempenho notável em diversas tarefas de questionamento e resposta em domínio aberto. No entanto, os motores de busca tradicionais podem recuperar conteúdo superficial, limitando a capacidade dos LLMs de lidar com informações complexas e em múltiplas camadas. Para abordar essa questão, apresentamos o WebWalkerQA, um benchmark projetado para avaliar a capacidade dos LLMs de realizar travessias na web. Ele avalia a capacidade dos LLMs de percorrer as subpáginas de um site para extrair dados de alta qualidade de forma sistemática. Propomos o WebWalker, que é um framework multiagente que imita a navegação na web de forma semelhante à humana, por meio de um paradigma de exploração-crítica. Resultados experimentais extensivos mostram que o WebWalkerQA é desafiador e demonstra a eficácia da combinação de RAG com o WebWalker, por meio da integração horizontal e vertical em cenários do mundo real.
English
Retrieval-augmented generation (RAG) demonstrates remarkable performance across tasks in open-domain question-answering. However, traditional search engines may retrieve shallow content, limiting the ability of LLMs to handle complex, multi-layered information. To address it, we introduce WebWalkerQA, a benchmark designed to assess the ability of LLMs to perform web traversal. It evaluates the capacity of LLMs to traverse a website's subpages to extract high-quality data systematically. We propose WebWalker, which is a multi-agent framework that mimics human-like web navigation through an explore-critic paradigm. Extensive experimental results show that WebWalkerQA is challenging and demonstrates the effectiveness of RAG combined with WebWalker, through the horizontal and vertical integration in real-world scenarios.

Summary

AI-Generated Summary

PDF183January 14, 2025