Physique dans la prédiction du prochain jeton

Résumé

Nous avons découvert la physique sous-jacente de la Prédiction du Prochain Token (PPT). Nous avons identifié la loi de conservation de l'information au sein de la PPT et avons proposé la Première Loi de Capacité d'Information (CI-1), démontrant que l'émergence de l'intelligence dans les modèles autorégressifs est fondamentalement un processus de transfert d'information. Nous avons également introduit le Principe de Landauer dans la PPT, formulant la Deuxième Loi de Capacité d'Information (CI-2), qui établit la relation entre l'entraînement des modèles autorégressifs et la consommation d'énergie. De plus, nous avons présenté plusieurs corollaires, qui ont une signification pratique pour les pratiques de production. Enfin, nous avons validé la compatibilité et la complémentarité de nos découvertes avec les théories existantes.

English

We discovered the underlying physics in Next-token Prediction (NTP). We identified the law of information conservation within NTP and proposed the First Law of Information Capacity (IC-1), demonstrating that the essence of intelligence emergence in auto-regressive models is fundamentally a process of information transfer. We also introduced Landauer's Principle into NTP, formulating the Second Law of Information Capacity (IC-2), which establishes the relationship between auto-regressive model training and energy consumption. Additionally, we presented several corollaries, which hold practical significance for production practices. Finally, we validated the compatibility and complementarity of our findings with existing theories.

Physique dans la prédiction du prochain jeton

Physics in Next-token Prediction

Résumé

Summary

Support