Inside-Out: Verborgenes Faktenwissen in LLMs
Inside-Out: Hidden Factual Knowledge in LLMs
March 19, 2025
Autoren: Zorik Gekhman, Eyal Ben David, Hadas Orgad, Eran Ofek, Yonatan Belinkov, Idan Szpector, Jonathan Herzig, Roi Reichart
cs.AI
Zusammenfassung
Diese Arbeit stellt einen Rahmen vor, um zu bewerten, ob große Sprachmodelle (LLMs) mehr faktisches Wissen in ihren Parametern kodieren, als sie in ihren Ausgaben ausdrücken. Während einige Studien auf diese Möglichkeit hindeuten, hat keine dieses Phänomen klar definiert oder nachgewiesen. Wir schlagen zunächst eine formale Definition von Wissen vor, indem wir es für eine gegebene Frage als den Anteil der korrekt-inkorrekten Antwortpaare quantifizieren, bei denen die korrekte Antwort höher eingestuft wird. Dies führt zu externem und internem Wissen, abhängig von der Information, die zur Bewertung einzelner Antwortkandidaten verwendet wird: entweder die beobachtbaren Token-Wahrscheinlichkeiten des Modells oder seine Zwischenberechnungen. Verborgenes Wissen entsteht, wenn das interne Wissen das externe Wissen übersteigt. Anschließend präsentieren wir eine Fallstudie, in der wir diesen Rahmen auf drei populäre Open-Weights-LLMs in einem Closed-Book-QA-Setup anwenden. Unsere Ergebnisse zeigen, dass: (1) LLMs konsistent mehr faktisches Wissen intern kodieren, als sie extern ausdrücken, mit einer durchschnittlichen Lücke von 40 %. (2) Überraschenderweise ist einiges Wissen so tief verborgen, dass ein Modell eine Antwort intern perfekt kennen kann, sie jedoch nicht einmal generiert, trotz groß angelegter wiederholter Stichproben von 1.000 Antworten. Dies offenbart grundlegende Einschränkungen in den Generierungsfähigkeiten von LLMs, die (3) eine praktische Beschränkung für die Skalierung der Testzeit-Berechnung durch wiederholte Antwortstichproben in Closed-Book-QA darstellen: signifikante Leistungsverbesserungen bleiben unzugänglich, weil einige Antworten praktisch nie gesampelt werden, obwohl sie, wenn sie es wären, garantiert an erster Stelle eingestuft würden.
English
This work presents a framework for assessing whether large language models
(LLMs) encode more factual knowledge in their parameters than what they express
in their outputs. While a few studies hint at this possibility, none has
clearly defined or demonstrated this phenomenon. We first propose a formal
definition of knowledge, quantifying it for a given question as the fraction of
correct-incorrect answer pairs where the correct one is ranked higher. This
gives rise to external and internal knowledge, depending on the information
used to score individual answer candidates: either the model's observable
token-level probabilities or its intermediate computations. Hidden knowledge
arises when internal knowledge exceeds external knowledge. We then present a
case study, applying this framework to three popular open-weights LLMs in a
closed-book QA setup. Our results indicate that: (1) LLMs consistently encode
more factual knowledge internally than what they express externally, with an
average gap of 40%. (2) Surprisingly, some knowledge is so deeply hidden that a
model can internally know an answer perfectly, yet fail to generate it even
once, despite large-scale repeated sampling of 1,000 answers. This reveals
fundamental limitations in the generation capabilities of LLMs, which (3) puts
a practical constraint on scaling test-time compute via repeated answer
sampling in closed-book QA: significant performance improvements remain
inaccessible because some answers are practically never sampled, yet if they
were, we would be guaranteed to rank them first.Summary
AI-Generated Summary