기존 어휘로는 AI를 이해할 수 없다
We Can't Understand AI Using our Existing Vocabulary
February 11, 2025
저자: John Hewitt, Robert Geirhos, Been Kim
cs.AI
초록
이 포지션 페이퍼는 AI를 이해하기 위해 기존의 인간 언어 어휘에 의존해서는 안 된다고 주장한다. 대신, 우리는 기계에게 가르치고자 하는 정확한 인간 개념이나 우리가 배워야 하는 기계 개념을 나타내는 새로운 단어, 즉 신조어를 개발하기 위해 노력해야 한다. 우리는 인간과 기계가 서로 다른 개념을 가지고 있다는 전제에서 출발한다. 이는 해석 가능성을 의사소통 문제로 재구성할 수 있음을 의미한다: 인간은 기계 개념을 참조하고 제어할 수 있어야 하며, 인간 개념을 기계에게 전달할 수 있어야 한다. 신조어 개발을 통해 인간과 기계가 공유하는 언어를 창출함으로써 이러한 의사소통 문제를 해결할 수 있다고 우리는 믿는다. 성공적인 신조어는 유용한 수준의 추상화를 달성한다: 너무 상세하지 않아 다양한 맥락에서 재사용 가능하면서도, 너무 높은 수준이 아니어서 정확한 정보를 전달한다. 개념 증명으로, 우리는 "길이 신조어"가 LLM 응답 길이를 제어할 수 있게 하고, "다양성 신조어"가 더 다양한 응답을 샘플링할 수 있게 하는 방법을 보여준다. 종합적으로, 우리는 기존 어휘로는 AI를 이해할 수 없으며, 신조어를 통해 어휘를 확장함으로써 기계를 더 잘 제어하고 이해할 수 있는 기회가 창출된다고 주장한다.
English
This position paper argues that, in order to understand AI, we cannot rely on
our existing vocabulary of human words. Instead, we should strive to develop
neologisms: new words that represent precise human concepts that we want to
teach machines, or machine concepts that we need to learn. We start from the
premise that humans and machines have differing concepts. This means
interpretability can be framed as a communication problem: humans must be able
to reference and control machine concepts, and communicate human concepts to
machines. Creating a shared human-machine language through developing
neologisms, we believe, could solve this communication problem. Successful
neologisms achieve a useful amount of abstraction: not too detailed, so they're
reusable in many contexts, and not too high-level, so they convey precise
information. As a proof of concept, we demonstrate how a "length neologism"
enables controlling LLM response length, while a "diversity neologism" allows
sampling more variable responses. Taken together, we argue that we cannot
understand AI using our existing vocabulary, and expanding it through
neologisms creates opportunities for both controlling and understanding
machines better.Summary
AI-Generated Summary