ChatPaper.aiChatPaper

LLM 어깨 위의 확률적 앵무새: 물리적 개념 이해의 요약 평가

The Stochastic Parrot on LLM's Shoulder: A Summative Assessment of Physical Concept Understanding

February 13, 2025
저자: Mo Yu, Lemao Liu, Junjie Wu, Tsz Ting Chung, Shunchi Zhang, Jiangnan Li, Dit-Yan Yeung, Jie Zhou
cs.AI

초록

체계적인 방식으로 우리는 널리 물어지는 질문을 조사합니다: LLMs가 정말로 자신이 하는 말을 이해하는가?, 이는 더 익숙한 용어인 확률적 앵무새와 관련이 있습니다. 이를 위해, 우리는 신중히 설계된 물리 개념 이해 작업 PhysiCo에 대한 요약 평가를 제안합니다. 우리의 작업은 물리 현상을 추상적으로 설명하는 그리드 형식의 입력을 사용하여 메모리 문제를 완화합니다. 이 그리드는 핵심 현상, 응용 예 및 그리드 세계의 다른 추상적 패턴에 대한 유사성을 나타냅니다. 우리의 작업에 대한 포괄적인 연구는 다음을 보여줍니다: (1) GPT-4o, o1 및 Gemini 2.0 플래시 사고를 포함한 최첨단 LLMs는 인간보다 약 40% 뒤처지고; (2) 확률적 앵무새 현상이 LLMs에 존재하며, 그들은 우리의 그리드 작업에서 실패하지만 자연어로 동일한 개념을 잘 설명하고 인식할 수 있습니다; (3) 우리의 작업은 LLMs에게 내재적 어려움 때문에 도전적이며, 그들의 성능에는 문맥 내 학습과 동일한 형식의 데이터에 대한 세밀한 조정이 별다른 도움이 되지 않습니다.
English
In a systematic way, we investigate a widely asked question: Do LLMs really understand what they say?, which relates to the more familiar term Stochastic Parrot. To this end, we propose a summative assessment over a carefully designed physical concept understanding task, PhysiCo. Our task alleviates the memorization issue via the usage of grid-format inputs that abstractly describe physical phenomena. The grids represents varying levels of understanding, from the core phenomenon, application examples to analogies to other abstract patterns in the grid world. A comprehensive study on our task demonstrates: (1) state-of-the-art LLMs, including GPT-4o, o1 and Gemini 2.0 flash thinking, lag behind humans by ~40%; (2) the stochastic parrot phenomenon is present in LLMs, as they fail on our grid task but can describe and recognize the same concepts well in natural language; (3) our task challenges the LLMs due to intrinsic difficulties rather than the unfamiliar grid format, as in-context learning and fine-tuning on same formatted data added little to their performance.

Summary

AI-Generated Summary

PDF1813February 14, 2025