Physik in der Vorhersage des nächsten Tokens

Physics in Next-token Prediction

November 1, 2024
Autoren: Hongjun An, Yiliang Song, Xuelong Li
cs.AI

Zusammenfassung

Wir haben die zugrunde liegende Physik in der Vorhersage des nächsten Tokens (NTP) entdeckt. Wir haben das Gesetz der Informationskonservierung innerhalb von NTP identifiziert und das Erste Gesetz der Informationskapazität (IC-1) vorgeschlagen, das zeigt, dass die Essenz des Intelligenzaufkommens in autoregressiven Modellen grundlegend ein Prozess des Informationsaustauschs ist. Wir haben auch das Landauer-Prinzip in NTP eingeführt, das das Zweite Gesetz der Informationskapazität (IC-2) formuliert, das die Beziehung zwischen dem Training von autoregressiven Modellen und dem Energieverbrauch festlegt. Darüber hinaus haben wir mehrere Korollare vorgestellt, die praktische Bedeutung für die Produktionspraxis haben. Schließlich haben wir die Kompatibilität und Ergänzung unserer Ergebnisse mit bestehenden Theorien validiert.
English
We discovered the underlying physics in Next-token Prediction (NTP). We identified the law of information conservation within NTP and proposed the First Law of Information Capacity (IC-1), demonstrating that the essence of intelligence emergence in auto-regressive models is fundamentally a process of information transfer. We also introduced Landauer's Principle into NTP, formulating the Second Law of Information Capacity (IC-2), which establishes the relationship between auto-regressive model training and energy consumption. Additionally, we presented several corollaries, which hold practical significance for production practices. Finally, we validated the compatibility and complementarity of our findings with existing theories.

Summary

AI-Generated Summary

PDF142November 13, 2024