Over het memoriseren van grote taalmodellen bij logisch redeneren
On Memorization of Large Language Models in Logical Reasoning
October 30, 2024
Auteurs: Chulin Xie, Yangsibo Huang, Chiyuan Zhang, Da Yu, Xinyun Chen, Bill Yuchen Lin, Bo Li, Badih Ghazi, Ravi Kumar
cs.AI
Samenvatting
Grote taalmodellen (LLM's) behalen goede prestaties op uitdagende redeneeruitdagingen, maar kunnen ook basisredeneerfouten maken. Dit tegenstrijdige gedrag is verwarrend als het gaat om het begrijpen van de mechanismen achter de redeneervaardigheden van LLM's. Een hypothese is dat de steeds hogere en bijna verzadigde prestaties op gangbare redeneeruitdagingen te wijten kunnen zijn aan het memoriseren van vergelijkbare problemen. In dit artikel onderzoeken we systematisch deze hypothese met een kwantitatieve meting van memorisatie bij redeneertaken, met behulp van een dynamisch gegenereerde logische redeneeruitdrukking gebaseerd op Ridders en Leugenaars (K&K) puzzels. We ontdekten dat LLM's de trainingspuzzels kunnen interpoleren (bijna perfecte nauwkeurigheid behalen) na fijnafstemming, maar falen wanneer die puzzels licht verstoord zijn, wat suggereert dat de modellen zwaar leunen op memorisatie om die trainingspuzzels op te lossen. Aan de andere kant tonen we aan dat hoewel fijnafstemming leidt tot zware memorisatie, het ook consequent de generalisatieprestaties verbetert. Diepgaande analyses met verstoringstests, overdraagbaarheid tussen moeilijkheidsniveaus, het onderzoeken van modelinterne processen en fijnafstemming met verkeerde antwoorden suggereren dat de LLM's leren redeneren over K&K puzzels ondanks het memoriseren van trainingsgegevens. Dit fenomeen duidt erop dat LLM's een complex samenspel vertonen tussen memorisatie en echte redeneervaardigheden. Ten slotte werpt onze analyse met per-voorbeeld memorisatiescore licht op hoe LLM's schakelen tussen redeneren en memoriseren bij het oplossen van logische puzzels. Onze code en gegevens zijn beschikbaar op https://memkklogic.github.io.
English
Large language models (LLMs) achieve good performance on challenging
reasoning benchmarks, yet could also make basic reasoning mistakes. This
contrasting behavior is puzzling when it comes to understanding the mechanisms
behind LLMs' reasoning capabilities. One hypothesis is that the increasingly
high and nearly saturated performance on common reasoning benchmarks could be
due to the memorization of similar problems. In this paper, we systematically
investigate this hypothesis with a quantitative measurement of memorization in
reasoning tasks, using a dynamically generated logical reasoning benchmark
based on Knights and Knaves (K&K) puzzles. We found that LLMs could interpolate
the training puzzles (achieving near-perfect accuracy) after fine-tuning, yet
fail when those puzzles are slightly perturbed, suggesting that the models
heavily rely on memorization to solve those training puzzles. On the other
hand, we show that while fine-tuning leads to heavy memorization, it also
consistently improves generalization performance. In-depth analyses with
perturbation tests, cross difficulty-level transferability, probing model
internals, and fine-tuning with wrong answers suggest that the LLMs learn to
reason on K&K puzzles despite training data memorization. This phenomenon
indicates that LLMs exhibit a complex interplay between memorization and
genuine reasoning abilities. Finally, our analysis with per-sample memorization
score sheds light on how LLMs switch between reasoning and memorization in
solving logical puzzles. Our code and data are available at
https://memkklogic.github.io.Summary
AI-Generated Summary