다음 토큰 예측에서의 물리학
Physics in Next-token Prediction
November 1, 2024
저자: Hongjun An, Yiliang Song, Xuelong Li
cs.AI
초록
우리는 Next-token Prediction (NTP)에서의 기본 물리학을 발견했습니다. NTP 내에서 정보 보존의 법칙을 확인하고 정보용량 제1 법칙 (IC-1)을 제안하여 자기 회귀 모델에서 지능 발생의 본질이 본질적으로 정보 전달 과정임을 입증했습니다. 또한 Landauer의 원리를 NTP에 도입하여 정보용량 제2 법칙 (IC-2)을 공식화했는데, 이는 자기 회귀 모델 훈련과 에너지 소비 간의 관계를 확립했습니다. 게다가 우리는 실무에 실질적인 중요성을 지닌 여러 부차정리를 제시했습니다. 마지막으로, 우리의 발견이 기존 이론들과 어떻게 호환되고 보완되는지를 검증했습니다.
English
We discovered the underlying physics in Next-token Prediction (NTP). We
identified the law of information conservation within NTP and proposed the
First Law of Information Capacity (IC-1), demonstrating that the essence of
intelligence emergence in auto-regressive models is fundamentally a process of
information transfer. We also introduced Landauer's Principle into NTP,
formulating the Second Law of Information Capacity (IC-2), which establishes
the relationship between auto-regressive model training and energy consumption.
Additionally, we presented several corollaries, which hold practical
significance for production practices. Finally, we validated the compatibility
and complementarity of our findings with existing theories.Summary
AI-Generated Summary