기계적 해석 가능성에 대한 미해결 문제들
Open Problems in Mechanistic Interpretability
January 27, 2025
저자: Lee Sharkey, Bilal Chughtai, Joshua Batson, Jack Lindsey, Jeff Wu, Lucius Bushnaq, Nicholas Goldowsky-Dill, Stefan Heimersheim, Alejandro Ortega, Joseph Bloom, Stella Biderman, Adria Garriga-Alonso, Arthur Conmy, Neel Nanda, Jessica Rumbelow, Martin Wattenberg, Nandi Schoots, Joseph Miller, Eric J. Michaud, Stephen Casper, Max Tegmark, William Saunders, David Bau, Eric Todd, Atticus Geiger, Mor Geva, Jesse Hoogland, Daniel Murfet, Tom McGrath
cs.AI
초록
기계적 해석가능성은 신경망의 능력을 이루기 위한 계산 메커니즘을 이해하는 데 목표를 두며 구체적인 과학 및 공학 목표를 달성하기 위해 노력합니다. 이 분야의 발전은 인공지능 시스템의 행동에 대한 보다 확실한 확신을 제공하고 지능의 본질에 관한 흥미로운 과학적 질문에 빛을 발할 것으로 기대됩니다. 이러한 목표에 대한 최근 진전에도 불구하고, 이 분야에는 많은 미해결 문제가 있어 이를 해결해야 과학적 및 실용적 이점을 실현할 수 있습니다: 우리의 방법은 보다 심층적인 통찰력을 드러내기 위해 개념적 및 실용적 개선이 필요하며, 특정 목표를 달성하기 위해 우리의 방법을 가장 잘 적용하는 방법을 찾아야 합니다. 또한 이 분야는 우리의 작업에 영향을 주고 받는 사회 기술적 도전에 직면해야 합니다. 이 전방향적 리뷰는 기계적 해석가능성의 현재 최전선과 이 분야가 우선시할 수 있는 미해결 문제에 대해 논의합니다.
English
Mechanistic interpretability aims to understand the computational mechanisms
underlying neural networks' capabilities in order to accomplish concrete
scientific and engineering goals. Progress in this field thus promises to
provide greater assurance over AI system behavior and shed light on exciting
scientific questions about the nature of intelligence. Despite recent progress
toward these goals, there are many open problems in the field that require
solutions before many scientific and practical benefits can be realized: Our
methods require both conceptual and practical improvements to reveal deeper
insights; we must figure out how best to apply our methods in pursuit of
specific goals; and the field must grapple with socio-technical challenges that
influence and are influenced by our work. This forward-facing review discusses
the current frontier of mechanistic interpretability and the open problems that
the field may benefit from prioritizing.Summary
AI-Generated Summary