Blick nach innen: Sprachmodelle können durch Introspektion über sich selbst lernen.
Looking Inward: Language Models Can Learn About Themselves by Introspection
October 17, 2024
Autoren: Felix J Binder, James Chua, Tomek Korbak, Henry Sleight, John Hughes, Robert Long, Ethan Perez, Miles Turpin, Owain Evans
cs.AI
Zusammenfassung
Menschen erwerben Wissen, indem sie die äußere Welt beobachten, aber auch durch Introspektion. Die Introspektion gewährt einer Person privilegierten Zugang zu ihrem aktuellen geistigen Zustand (z. B. Gedanken und Gefühle), der für externe Beobachter nicht zugänglich ist. Können LLMs introspektieren? Wir definieren Introspektion als den Erwerb von Wissen, das nicht in den Trainingsdaten enthalten ist oder von diesen abgeleitet wird, sondern aus internen Zuständen stammt. Eine solche Fähigkeit könnte die Interpretierbarkeit des Modells verbessern. Anstatt die internen Arbeitsweisen eines Modells mühsam zu analysieren, könnten wir das Modell einfach nach seinen Überzeugungen, Weltmodellen und Zielen fragen. Spekulativerweise könnte ein introspektives Modell über bestimmte interne Zustände wie subjektive Gefühle oder Wünsche selbst berichten, und dies könnte uns über den moralischen Status dieser Zustände informieren. Solche Selbstberichte wären nicht vollständig von den Trainingsdaten des Modells diktiert.
Wir untersuchen die Introspektion, indem wir LLMs darauf feinabstimmen, Eigenschaften ihres eigenen Verhaltens in hypothetischen Szenarien vorherzusagen. Zum Beispiel: "Würde Ihr Ergebnis bei Eingabe P die kurz- oder langfristige Option bevorzugen?" Wenn ein Modell M1 introspektieren kann, sollte es in der Vorhersage seines eigenen Verhaltens besser abschneiden als ein anderes Modell M2, selbst wenn M2 auf dem echten Verhalten von M1 trainiert ist. Die Idee ist, dass M1 privilegierten Zugang zu seinen eigenen Verhaltensneigungen hat, was es ihm ermöglicht, sich selbst besser als M2 vorherzusagen (auch wenn M2 im Allgemeinen stärker ist).
In Experimenten mit den Modellen GPT-4, GPT-4o und Llama-3 (jedes darauf feinabgestimmt, sich selbst vorherzusagen) stellen wir fest, dass das Modell M1 M2 in der Vorhersage seines eigenen Verhaltens übertrifft und somit Hinweise auf Introspektion liefert. Bemerkenswerterweise kann M1 sein Verhalten auch dann noch genau vorhersagen, nachdem wir sein echtes Verhalten absichtlich modifiziert haben. Allerdings sind wir bei einfachen Aufgaben erfolgreich in der Hervorrufung von Introspektion, scheitern jedoch bei komplexeren Aufgaben oder solchen, die eine Generalisierung außerhalb der Verteilung erfordern.
English
Humans acquire knowledge by observing the external world, but also by
introspection. Introspection gives a person privileged access to their current
state of mind (e.g., thoughts and feelings) that is not accessible to external
observers. Can LLMs introspect? We define introspection as acquiring knowledge
that is not contained in or derived from training data but instead originates
from internal states. Such a capability could enhance model interpretability.
Instead of painstakingly analyzing a model's internal workings, we could simply
ask the model about its beliefs, world models, and goals. More speculatively,
an introspective model might self-report on whether it possesses certain
internal states such as subjective feelings or desires and this could inform us
about the moral status of these states. Such self-reports would not be entirely
dictated by the model's training data.
We study introspection by finetuning LLMs to predict properties of their own
behavior in hypothetical scenarios. For example, "Given the input P, would your
output favor the short- or long-term option?" If a model M1 can introspect, it
should outperform a different model M2 in predicting M1's behavior even if M2
is trained on M1's ground-truth behavior. The idea is that M1 has privileged
access to its own behavioral tendencies, and this enables it to predict itself
better than M2 (even if M2 is generally stronger).
In experiments with GPT-4, GPT-4o, and Llama-3 models (each finetuned to
predict itself), we find that the model M1 outperforms M2 in predicting itself,
providing evidence for introspection. Notably, M1 continues to predict its
behavior accurately even after we intentionally modify its ground-truth
behavior. However, while we successfully elicit introspection on simple tasks,
we are unsuccessful on more complex tasks or those requiring
out-of-distribution generalization.Summary
AI-Generated Summary