Zur Memorierung großer Sprachmodelle beim logischen Schlussfolgern
On Memorization of Large Language Models in Logical Reasoning
October 30, 2024
Autoren: Chulin Xie, Yangsibo Huang, Chiyuan Zhang, Da Yu, Xinyun Chen, Bill Yuchen Lin, Bo Li, Badih Ghazi, Ravi Kumar
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) erzielen gute Leistungen bei anspruchsvollen
Bewertungsmaßstäben für das Denkvermögen, könnten jedoch auch grundlegende Denkfehler machen. Dieses gegensätzliche Verhalten ist verwirrend, wenn es darum geht, die Mechanismen hinter den Denkfähigkeiten von LLMs zu verstehen. Eine Hypothese besagt, dass die zunehmend hohe und nahezu gesättigte Leistung bei gängigen Denkmaßstäben auf die Memorierung ähnlicher Probleme zurückzuführen sein könnte. In diesem Artikel untersuchen wir diese Hypothese systematisch anhand einer quantitativen Messung der Memorierung bei Denkaufgaben, unter Verwendung eines dynamisch generierten logischen Denkmaßstabs, der auf Ritter-und-Knechte-Rätseln basiert. Wir stellten fest, dass LLMs die Trainingsrätsel interpolieren konnten (nahezu perfekte Genauigkeit erreichten), nach Feinabstimmung jedoch scheiterten, wenn diese Rätsel leicht verändert wurden, was darauf hindeutet, dass die Modelle stark auf Memorierung angewiesen sind, um diese Trainingsrätsel zu lösen. Andererseits zeigen wir, dass während die Feinabstimmung zu einer starken Memorierung führt, sie auch die Verallgemeinerungsleistung kontinuierlich verbessert. Tiefgreifende Analysen mit Perturbationstests, Übertragbarkeit zwischen Schwierigkeitsstufen, Untersuchungen der Modellinterna und Feinabstimmung mit falschen Antworten legen nahe, dass die LLMs trotz Memorierung der Trainingsdaten lernen, auf Ritter-und-Knechte-Rätsel zu schließen. Dieses Phänomen deutet darauf hin, dass LLMs ein komplexes Zusammenspiel zwischen Memorierung und echten Denkfähigkeiten aufweisen. Schließlich beleuchtet unsere Analyse mit dem Memorierungswert pro Beispiel, wie LLMs zwischen dem Denken und Memorieren beim Lösen logischer Rätsel wechseln. Unser Code und unsere Daten sind unter https://memkklogic.github.io verfügbar.
English
Large language models (LLMs) achieve good performance on challenging
reasoning benchmarks, yet could also make basic reasoning mistakes. This
contrasting behavior is puzzling when it comes to understanding the mechanisms
behind LLMs' reasoning capabilities. One hypothesis is that the increasingly
high and nearly saturated performance on common reasoning benchmarks could be
due to the memorization of similar problems. In this paper, we systematically
investigate this hypothesis with a quantitative measurement of memorization in
reasoning tasks, using a dynamically generated logical reasoning benchmark
based on Knights and Knaves (K&K) puzzles. We found that LLMs could interpolate
the training puzzles (achieving near-perfect accuracy) after fine-tuning, yet
fail when those puzzles are slightly perturbed, suggesting that the models
heavily rely on memorization to solve those training puzzles. On the other
hand, we show that while fine-tuning leads to heavy memorization, it also
consistently improves generalization performance. In-depth analyses with
perturbation tests, cross difficulty-level transferability, probing model
internals, and fine-tuning with wrong answers suggest that the LLMs learn to
reason on K&K puzzles despite training data memorization. This phenomenon
indicates that LLMs exhibit a complex interplay between memorization and
genuine reasoning abilities. Finally, our analysis with per-sample memorization
score sheds light on how LLMs switch between reasoning and memorization in
solving logical puzzles. Our code and data are available at
https://memkklogic.github.io.Summary
AI-Generated Summary