ChatPaper.aiChatPaper

Text2World: 대규모 언어 모델의 상징적 세계 모델 생성을 위한 벤치마킹

Text2World: Benchmarking Large Language Models for Symbolic World Model Generation

February 18, 2025
저자: Mengkang Hu, Tianxing Chen, Yude Zou, Yuheng Lei, Qiguang Chen, Ming Li, Hongyuan Zhang, Wenqi Shao, Ping Luo
cs.AI

초록

최근 텍스트 설명으로부터 기호적 세계 모델(symbolic world models)을 생성하기 위해 대규모 언어 모델(LLMs)을 활용하는 데 대한 관심이 높아지고 있습니다. LLMs는 세계 모델링(world modeling) 맥락에서 광범위하게 연구되었지만, 기존 연구들은 평가의 무작위성, 간접 지표에 대한 의존성, 제한된 도메인 범위 등 여러 가지 과제에 직면했습니다. 이러한 한계를 해결하기 위해, 우리는 계획 도메인 정의 언어(PDDL)를 기반으로 한 새로운 벤치마크인 Text2World를 소개합니다. 이 벤치마크는 수백 가지 다양한 도메인을 포함하며, 보다 견고한 평가를 위해 다중 기준 실행 기반 지표를 사용합니다. 우리는 Text2World를 사용하여 현재의 LLMs를 벤치마킹했으며, 대규모 강화 학습으로 훈련된 추론 모델이 다른 모델들을 능가하는 것을 확인했습니다. 그러나 가장 성능이 뛰어난 모델조차도 세계 모델링에서 제한된 능력을 보였습니다. 이러한 통찰을 바탕으로, 우리는 테스트 시 스케일링(test-time scaling), 에이전트 훈련(agent training) 등 LLMs의 세계 모델링 능력을 향상시키기 위한 여러 유망한 전략을 검토했습니다. 우리는 Text2World가 LLMs를 세계 모델로 활용하는 미래 연구의 기반을 마련하는 중요한 자원이 되기를 바랍니다. 프로젝트 페이지는 https://text-to-world.github.io/에서 확인할 수 있습니다.
English
Recently, there has been growing interest in leveraging large language models (LLMs) to generate symbolic world models from textual descriptions. Although LLMs have been extensively explored in the context of world modeling, prior studies encountered several challenges, including evaluation randomness, dependence on indirect metrics, and a limited domain scope. To address these limitations, we introduce a novel benchmark, Text2World, based on planning domain definition language (PDDL), featuring hundreds of diverse domains and employing multi-criteria, execution-based metrics for a more robust evaluation. We benchmark current LLMs using Text2World and find that reasoning models trained with large-scale reinforcement learning outperform others. However, even the best-performing model still demonstrates limited capabilities in world modeling. Building on these insights, we examine several promising strategies to enhance the world modeling capabilities of LLMs, including test-time scaling, agent training, and more. We hope that Text2World can serve as a crucial resource, laying the groundwork for future research in leveraging LLMs as world models. The project page is available at https://text-to-world.github.io/.

Summary

AI-Generated Summary

PDF122February 19, 2025