ChatPaper.aiChatPaper

대형 언어 모델은 효과적으로 탐색하기에 너무 빨리 생각합니다.

Large Language Models Think Too Fast To Explore Effectively

January 29, 2025
저자: Lan Pan, Hanbo Xie, Robert C. Wilson
cs.AI

초록

대형 언어 모델은 많은 지적 능력을 갖추었습니다. 많은 벤치마크가 그들의 지능을 평가하지만, 탐험 능력에 대한 주목은 부족했습니다. 탐험 능력은 새로운 정보를 발견하고 자연 및 인공 시스템에서 새로운 환경에 적응하는 데 필수적입니다. 대형 언어 모델이 특히 열린 과제에서 얼마나 효과적으로 탐험할 수 있는지는 여전히 불분명합니다. 본 연구는 Little Alchemy 2를 패러다임으로 사용하여 대형 언어 모델이 열린 과제 중에서 탐험에서 인간을 능가할 수 있는지 조사합니다. 여기서 에이전트는 원소를 결합하여 새로운 원소를 발견합니다. 결과는 대부분의 대형 언어 모델이 인간에 비해 성적이 낮은 것을 보여주었으며, 예외는 o1 모델이었습니다. 전통적인 대형 언어 모델은 주로 불확실성 주도 전략에 의존하는 반면, 인간은 불확실성과 권한을 균형 있게 고려합니다. 희소 오토인코더로 모델의 표현 분석을 통해, 불확실성과 선택이 초기 트랜스포머 블록에서 표현되는 반면, 권한 값은 나중에 처리되어 대형 언어 모델이 너무 빨리 생각하고 조기 결정을 내리는 데 어려움을 겪어 효과적인 탐험을 방해한다는 것을 밝혀냈습니다. 이러한 결과는 대형 언어 모델의 탐험의 한계를 밝히고 그들의 적응성을 향상시키는 방향을 제안합니다.
English
Large Language Models have emerged many intellectual capacities. While numerous benchmarks assess their intelligence, limited attention has been given to their ability to explore, an essential capacity for discovering new information and adapting to novel environments in both natural and artificial systems. The extent to which LLMs can effectively explore, particularly in open-ended tasks, remains unclear. This study investigates whether LLMs can surpass humans in exploration during an open-ended task, using Little Alchemy 2 as a paradigm, where agents combine elements to discover new ones. Results show most LLMs underperform compared to humans, except for the o1 model, with those traditional LLMs relying primarily on uncertainty driven strategies, unlike humans who balance uncertainty and empowerment. Representational analysis of the models with Sparse Autoencoders revealed that uncertainty and choices are represented at earlier transformer blocks, while empowerment values are processed later, causing LLMs to think too fast and make premature decisions, hindering effective exploration. These findings shed light on the limitations of LLM exploration and suggest directions for improving their adaptability.

Summary

AI-Generated Summary

PDF233January 31, 2025