Physik in der Vorhersage des nächsten Tokens
Physics in Next-token Prediction
November 1, 2024
Autoren: Hongjun An, Yiliang Song, Xuelong Li
cs.AI
Zusammenfassung
Wir haben die zugrunde liegende Physik in der Vorhersage des nächsten Tokens (NTP) entdeckt. Wir haben das Gesetz der Informationskonservierung innerhalb von NTP identifiziert und das Erste Gesetz der Informationskapazität (IC-1) vorgeschlagen, das zeigt, dass die Essenz des Intelligenzaufkommens in autoregressiven Modellen grundlegend ein Prozess des Informationsaustauschs ist. Wir haben auch das Landauer-Prinzip in NTP eingeführt, das das Zweite Gesetz der Informationskapazität (IC-2) formuliert, das die Beziehung zwischen dem Training von autoregressiven Modellen und dem Energieverbrauch festlegt. Darüber hinaus haben wir mehrere Korollare vorgestellt, die praktische Bedeutung für die Produktionspraxis haben. Schließlich haben wir die Kompatibilität und Ergänzung unserer Ergebnisse mit bestehenden Theorien validiert.
English
We discovered the underlying physics in Next-token Prediction (NTP). We
identified the law of information conservation within NTP and proposed the
First Law of Information Capacity (IC-1), demonstrating that the essence of
intelligence emergence in auto-regressive models is fundamentally a process of
information transfer. We also introduced Landauer's Principle into NTP,
formulating the Second Law of Information Capacity (IC-2), which establishes
the relationship between auto-regressive model training and energy consumption.
Additionally, we presented several corollaries, which hold practical
significance for production practices. Finally, we validated the compatibility
and complementarity of our findings with existing theories.Summary
AI-Generated Summary