Physique dans la prédiction du prochain jeton
Physics in Next-token Prediction
November 1, 2024
Auteurs: Hongjun An, Yiliang Song, Xuelong Li
cs.AI
Résumé
Nous avons découvert la physique sous-jacente de la Prédiction du Prochain Token (PPT). Nous avons identifié la loi de conservation de l'information au sein de la PPT et avons proposé la Première Loi de Capacité d'Information (CI-1), démontrant que l'émergence de l'intelligence dans les modèles autorégressifs est fondamentalement un processus de transfert d'information. Nous avons également introduit le Principe de Landauer dans la PPT, formulant la Deuxième Loi de Capacité d'Information (CI-2), qui établit la relation entre l'entraînement des modèles autorégressifs et la consommation d'énergie. De plus, nous avons présenté plusieurs corollaires, qui ont une signification pratique pour les pratiques de production. Enfin, nous avons validé la compatibilité et la complémentarité de nos découvertes avec les théories existantes.
English
We discovered the underlying physics in Next-token Prediction (NTP). We
identified the law of information conservation within NTP and proposed the
First Law of Information Capacity (IC-1), demonstrating that the essence of
intelligence emergence in auto-regressive models is fundamentally a process of
information transfer. We also introduced Landauer's Principle into NTP,
formulating the Second Law of Information Capacity (IC-2), which establishes
the relationship between auto-regressive model training and energy consumption.
Additionally, we presented several corollaries, which hold practical
significance for production practices. Finally, we validated the compatibility
and complementarity of our findings with existing theories.Summary
AI-Generated Summary