에이전트를 위한 인터넷 규모 교육을 향하여
Towards Internet-Scale Training For Agents
February 10, 2025
저자: Brandon Trabucco, Gunnar Sigurdsson, Robinson Piramuthu, Ruslan Salakhutdinov
cs.AI
초록
웹 탐색 에이전트를 훈련시키는 주요 방법은 인기 있는 웹사이트와 수동으로 작성된 작업에 대한 인간 데모를 수집하는 것이지만, 인간 데이터가 비효율적인 자원임이 분명해지고 있습니다. 저희는 번거로운 인간 주석 없이 에이전트를 위한 인터넷 규모의 훈련을 용이하게 하는 파이프라인을 개발했습니다. 첫 번째 단계에서 LLM은 15만 개의 다양한 웹사이트를 위한 작업을 생성합니다. 다음 단계에서 LLM 에이전트는 작업을 완료하고 궤적을 생성합니다. 마지막 단계에서 LLM은 궤적을 검토하고 성공 여부를 판단합니다. 언어 모델은 인간 주석자들과 경쟁력을 갖추며, 97%의 정확도로 유해 콘텐츠를 감지하고 필터링하며, 89%의 비유용한 작업을 생성하고, 82.6%의 정확도로 성공적인 궤적을 판단합니다. 파이프라인을 확장하면, Llama 3.1 70B를 기반으로 한 에이전트들은 15만 개 사이트에 대해 16.7%의 작업을 해결합니다. 저희 파이프라인에서 생성된 데이터로 훈련하는 것은 인간 데모로 훈련하는 것과 경쟁력이 있습니다. Mind2Web 및 WebLINX에서 파생된 데이터 한정 환경에서, 저희 파이프라인 및 인간 데이터 혼합으로 훈련된 에이전트들의 단계 정확도를 각각 최대 +89.5% 및 +122.1% 향상시킵니다. 이러한 벤치마크의 모든 인간 데이터로 에이전트를 훈련할 때, 에이전트들은 다양한 실제 사이트로 일반화할 수 없으며, 저희 데이터를 추가함으로써 WebLINX의 경우 +149.0%, Mind2Web의 경우 +156.3%로 일반화를 향상시킵니다. 코드는 다음에서 제공될 예정입니다: data-for-agents.github.io.
English
The predominant approach for training web navigation agents gathers human
demonstrations for a set of popular websites and hand-written tasks, but it is
becoming clear that human data are an inefficient resource. We develop a
pipeline to facilitate Internet-scale training for agents without laborious
human annotations. In the first stage, an LLM generates tasks for 150k diverse
websites. In the next stage, LLM agents complete tasks and produce
trajectories. In the final stage, an LLM reviews the trajectories and judges
their success. Language models are competitive with human annotators, detecting
and filtering out harmful content with an accuracy of 97%, generating feasible
tasks with an 89% rate, and judging successful trajectories with an 82.6%
accuracy. Scaling the pipeline, agents based on Llama 3.1 70B solve 16.7% of
tasks for 150k sites. Training on the data generated by our pipeline is
competitive with training on human demonstrations. In data-limited settings
derived from Mind2Web and WebLINX, we improve Step Accuracy by up to +89.5% and
+122.1% respectively for agents trained on mixtures of data from our pipeline,
and human data. When training agents with all available human data from these
benchmarks, agents fail to generalize to diverse real sites, and adding our
data improves their generalization by +149.0% for WebLINX and +156.3% for
Mind2Web. Code will be available at: data-for-agents.github.io.Summary
AI-Generated Summary