Fysica in Voorspelling van Volgend Token

Physics in Next-token Prediction

November 1, 2024
Auteurs: Hongjun An, Yiliang Song, Xuelong Li
cs.AI

Samenvatting

We hebben de onderliggende natuurkunde ontdekt in Next-token Prediction (NTP). We hebben de wet van informatiebehoud binnen NTP geïdentificeerd en de Eerste Wet van Informatiecapaciteit (IC-1) voorgesteld, waarbij we aantonen dat de essentie van intelligentie-ontwikkeling in auto-regressieve modellen in wezen een proces van informatieoverdracht is. We hebben ook het principe van Landauer geïntroduceerd in NTP, waarbij we de Tweede Wet van Informatiecapaciteit (IC-2) hebben geformuleerd, die de relatie tussen training van auto-regressieve modellen en energieverbruik vaststelt. Daarnaast hebben we verschillende gevolgtrekkingen gepresenteerd die praktisch belangrijk zijn voor productiepraktijken. Tot slot hebben we de compatibiliteit en aanvullendheid van onze bevindingen met bestaande theorieën bevestigd.
English
We discovered the underlying physics in Next-token Prediction (NTP). We identified the law of information conservation within NTP and proposed the First Law of Information Capacity (IC-1), demonstrating that the essence of intelligence emergence in auto-regressive models is fundamentally a process of information transfer. We also introduced Landauer's Principle into NTP, formulating the Second Law of Information Capacity (IC-2), which establishes the relationship between auto-regressive model training and energy consumption. Additionally, we presented several corollaries, which hold practical significance for production practices. Finally, we validated the compatibility and complementarity of our findings with existing theories.

Summary

AI-Generated Summary

PDF142November 13, 2024