Fisica nella Predizione del Prossimo Token
Physics in Next-token Prediction
November 1, 2024
Autori: Hongjun An, Yiliang Song, Xuelong Li
cs.AI
Abstract
Abbiamo scoperto la fisica sottostante nella Predizione del Prossimo Token (NTP). Abbiamo identificato la legge della conservazione dell'informazione all'interno di NTP e proposto la Prima Legge della Capacità Informativa (IC-1), dimostrando che l'essenza dell'emergere dell'intelligenza nei modelli auto-regressivi è fondamentalmente un processo di trasferimento di informazioni. Abbiamo inoltre introdotto il Principio di Landauer in NTP, formulando la Seconda Legge della Capacità Informativa (IC-2), che stabilisce la relazione tra l'addestramento del modello auto-regressivo e il consumo di energia. Inoltre, abbiamo presentato diversi corollari, che hanno rilevanza pratica per le pratiche produttive. Infine, abbiamo convalidato la compatibilità e la complementarietà delle nostre scoperte con le teorie esistenti.
English
We discovered the underlying physics in Next-token Prediction (NTP). We
identified the law of information conservation within NTP and proposed the
First Law of Information Capacity (IC-1), demonstrating that the essence of
intelligence emergence in auto-regressive models is fundamentally a process of
information transfer. We also introduced Landauer's Principle into NTP,
formulating the Second Law of Information Capacity (IC-2), which establishes
the relationship between auto-regressive model training and energy consumption.
Additionally, we presented several corollaries, which hold practical
significance for production practices. Finally, we validated the compatibility
and complementarity of our findings with existing theories.Summary
AI-Generated Summary