ChatPaper.aiChatPaper

불가능한 시험: 2024년 해결할 수 없는 데이터셋과 AGI의 기회 퀴즈

The Impossible Test: A 2024 Unsolvable Dataset and A Chance for an AGI Quiz

November 20, 2024
저자: David Noever, Forrest McKee
cs.AI

초록

본 연구는 675개의 근본적으로 해결 불가능한 문제에 대한 대규모 언어 모델(Large Language Models, LLMs)의 불확실성을 인지하는 능력을 평가하기 위해 고안된 혁신적인 평가 프레임워크를 소개합니다. 고의적으로 알 수 없는 답변을 가진 대학 수준의 중요한 도전 과제 질문들로 구성된 선별된 데이터셋을 활용하여, 오픈 및 폐쇄 소스 모델을 포함한 12개의 최첨단 LLMs를 평가하여, 그들이 가능한 대답을 생성하는 대신 무지를 인정하는 경향을 조사했습니다. 최고의 모델들은 생물학부터 철학 및 수학 분야까지의 문제 해결이 알려지지 않았음을 인정하는 정확도 범위에서 62-68%의 점수를 기록했습니다. 문제 난이도와 모델 정확도 사이에 역상관 관계를 관찰했으며, GPT-4는 보다 어려운 문제(35.8%)에서 더 높은 불확실성 인지율을 보여주었고, 더 간단한 문제(20.0%)에서는 그렇지 않았습니다. 이 패턴은 문제가 보다 해결 가능해 보일 때 모델이 추측적인 답변을 생성하기 쉬울 수 있다는 것을 나타냅니다. 연구는 또한, 발명과 NP-하드 문제에서의 불확실성을 인정하는 데 어려움을 겪는 모델들과 철학적 및 심리적 도전 과제에서 상대적으로 더 나은 성과를 보이는 모델들 사이의 중요한 차이를 밝혔습니다. 이러한 결과는 미래 기계 지능 평가의 중요한 구성 요소로서 불확실성 인지의 중요성을 강조함으로써 인공 일반 지능(Artificial General Intelligence, AGI) 평가에 대한 연구의 증가하는 영역에 기여합니다. 이 불가능성 테스트는 현재 LLMs의 자신의 지식 경계를 인지하는 능력의 한계를 경험적 증거로 제시함으로써, 향후 모델 훈련 아키텍처 및 평가 방법을 개선하기 위한 새로운 방향을 제안하여, 범용 지능 테스트에 대한 이론적 프레임워크를 확장합니다.
English
This research introduces a novel evaluation framework designed to assess large language models' (LLMs) ability to acknowledge uncertainty on 675 fundamentally unsolvable problems. Using a curated dataset of graduate-level grand challenge questions with intentionally unknowable answers, we evaluated twelve state-of-the-art LLMs, including both open and closed-source models, on their propensity to admit ignorance rather than generate plausible but incorrect responses. The best models scored in 62-68% accuracy ranges for admitting the problem solution was unknown in fields ranging from biology to philosophy and mathematics. We observed an inverse relationship between problem difficulty and model accuracy, with GPT-4 demonstrating higher rates of uncertainty acknowledgment on more challenging problems (35.8%) compared to simpler ones (20.0%). This pattern indicates that models may be more prone to generate speculative answers when problems appear more tractable. The study also revealed significant variations across problem categories, with models showing difficulty in acknowledging uncertainty in invention and NP-hard problems while performing relatively better on philosophical and psychological challenges. These results contribute to the growing body of research on artificial general intelligence (AGI) assessment by highlighting the importance of uncertainty recognition as a critical component of future machine intelligence evaluation. This impossibility test thus extends previous theoretical frameworks for universal intelligence testing by providing empirical evidence of current limitations in LLMs' ability to recognize their own knowledge boundaries, suggesting new directions for improving model training architectures and evaluation approaches.

Summary

AI-Generated Summary

PDF72November 26, 2024