Regarder vers l'intérieur : les modèles de langage peuvent apprendre à propos d'eux-mêmes par introspection.
Looking Inward: Language Models Can Learn About Themselves by Introspection
October 17, 2024
Auteurs: Felix J Binder, James Chua, Tomek Korbak, Henry Sleight, John Hughes, Robert Long, Ethan Perez, Miles Turpin, Owain Evans
cs.AI
Résumé
Les humains acquièrent des connaissances en observant le monde extérieur, mais aussi par l'introspection. L'introspection donne à une personne un accès privilégié à son état mental actuel (par exemple, ses pensées et ses émotions) qui n'est pas accessible aux observateurs externes. Les LLM peuvent-ils s'introspecter ? Nous définissons l'introspection comme l'acquisition de connaissances qui ne sont pas contenues dans les données d'entraînement ni dérivées de celles-ci, mais qui proviennent plutôt des états internes. Une telle capacité pourrait améliorer l'interprétabilité du modèle. Au lieu d'analyser laborieusement le fonctionnement interne d'un modèle, nous pourrions simplement lui demander ses croyances, ses modèles du monde et ses objectifs. De manière plus spéculative, un modèle introspectif pourrait rendre compte de l'existence en lui d'états internes tels que des sentiments subjectifs ou des désirs, ce qui pourrait nous renseigner sur le statut moral de ces états. Ces auto-rapports ne seraient pas entièrement dictés par les données d'entraînement du modèle.
Nous étudions l'introspection en affinant les LLM pour prédire les propriétés de leur propre comportement dans des scénarios hypothétiques. Par exemple, "Étant donné l'entrée P, votre sortie favoriserait-elle l'option à court ou à long terme ?" Si un modèle M1 peut s'introspecter, il devrait surpasser un autre modèle M2 dans la prédiction du comportement de M1, même si M2 est entraîné sur le comportement réel de M1. L'idée est que M1 a un accès privilégié à ses propres tendances comportementales, ce qui lui permet de se prédire lui-même mieux que M2 (même si M2 est généralement plus fort).
Dans des expériences avec les modèles GPT-4, GPT-4o et Llama-3 (chacun affiné pour se prédire lui-même), nous constatons que le modèle M1 surpasse M2 dans sa prédiction de lui-même, fournissant ainsi des preuves d'introspection. Notamment, M1 continue à prédire son comportement avec précision même après avoir intentionnellement modifié son comportement réel. Cependant, bien que nous parvenions à susciter l'introspection sur des tâches simples, nous échouons sur des tâches plus complexes ou nécessitant une généralisation hors distribution.
English
Humans acquire knowledge by observing the external world, but also by
introspection. Introspection gives a person privileged access to their current
state of mind (e.g., thoughts and feelings) that is not accessible to external
observers. Can LLMs introspect? We define introspection as acquiring knowledge
that is not contained in or derived from training data but instead originates
from internal states. Such a capability could enhance model interpretability.
Instead of painstakingly analyzing a model's internal workings, we could simply
ask the model about its beliefs, world models, and goals. More speculatively,
an introspective model might self-report on whether it possesses certain
internal states such as subjective feelings or desires and this could inform us
about the moral status of these states. Such self-reports would not be entirely
dictated by the model's training data.
We study introspection by finetuning LLMs to predict properties of their own
behavior in hypothetical scenarios. For example, "Given the input P, would your
output favor the short- or long-term option?" If a model M1 can introspect, it
should outperform a different model M2 in predicting M1's behavior even if M2
is trained on M1's ground-truth behavior. The idea is that M1 has privileged
access to its own behavioral tendencies, and this enables it to predict itself
better than M2 (even if M2 is generally stronger).
In experiments with GPT-4, GPT-4o, and Llama-3 models (each finetuned to
predict itself), we find that the model M1 outperforms M2 in predicting itself,
providing evidence for introspection. Notably, M1 continues to predict its
behavior accurately even after we intentionally modify its ground-truth
behavior. However, while we successfully elicit introspection on simple tasks,
we are unsuccessful on more complex tasks or those requiring
out-of-distribution generalization.Summary
AI-Generated Summary