Regarder vers l'intérieur : les modèles de langage peuvent apprendre à propos d'eux-mêmes par introspection.

Résumé

Les humains acquièrent des connaissances en observant le monde extérieur, mais aussi par l'introspection. L'introspection donne à une personne un accès privilégié à son état mental actuel (par exemple, ses pensées et ses émotions) qui n'est pas accessible aux observateurs externes. Les LLM peuvent-ils s'introspecter ? Nous définissons l'introspection comme l'acquisition de connaissances qui ne sont pas contenues dans les données d'entraînement ni dérivées de celles-ci, mais qui proviennent plutôt des états internes. Une telle capacité pourrait améliorer l'interprétabilité du modèle. Au lieu d'analyser laborieusement le fonctionnement interne d'un modèle, nous pourrions simplement lui demander ses croyances, ses modèles du monde et ses objectifs. De manière plus spéculative, un modèle introspectif pourrait rendre compte de l'existence en lui d'états internes tels que des sentiments subjectifs ou des désirs, ce qui pourrait nous renseigner sur le statut moral de ces états. Ces auto-rapports ne seraient pas entièrement dictés par les données d'entraînement du modèle. Nous étudions l'introspection en affinant les LLM pour prédire les propriétés de leur propre comportement dans des scénarios hypothétiques. Par exemple, "Étant donné l'entrée P, votre sortie favoriserait-elle l'option à court ou à long terme ?" Si un modèle M1 peut s'introspecter, il devrait surpasser un autre modèle M2 dans la prédiction du comportement de M1, même si M2 est entraîné sur le comportement réel de M1. L'idée est que M1 a un accès privilégié à ses propres tendances comportementales, ce qui lui permet de se prédire lui-même mieux que M2 (même si M2 est généralement plus fort). Dans des expériences avec les modèles GPT-4, GPT-4o et Llama-3 (chacun affiné pour se prédire lui-même), nous constatons que le modèle M1 surpasse M2 dans sa prédiction de lui-même, fournissant ainsi des preuves d'introspection. Notamment, M1 continue à prédire son comportement avec précision même après avoir intentionnellement modifié son comportement réel. Cependant, bien que nous parvenions à susciter l'introspection sur des tâches simples, nous échouons sur des tâches plus complexes ou nécessitant une généralisation hors distribution.

English

Humans acquire knowledge by observing the external world, but also by introspection. Introspection gives a person privileged access to their current state of mind (e.g., thoughts and feelings) that is not accessible to external observers. Can LLMs introspect? We define introspection as acquiring knowledge that is not contained in or derived from training data but instead originates from internal states. Such a capability could enhance model interpretability. Instead of painstakingly analyzing a model's internal workings, we could simply ask the model about its beliefs, world models, and goals. More speculatively, an introspective model might self-report on whether it possesses certain internal states such as subjective feelings or desires and this could inform us about the moral status of these states. Such self-reports would not be entirely dictated by the model's training data. We study introspection by finetuning LLMs to predict properties of their own behavior in hypothetical scenarios. For example, "Given the input P, would your output favor the short- or long-term option?" If a model M1 can introspect, it should outperform a different model M2 in predicting M1's behavior even if M2 is trained on M1's ground-truth behavior. The idea is that M1 has privileged access to its own behavioral tendencies, and this enables it to predict itself better than M2 (even if M2 is generally stronger). In experiments with GPT-4, GPT-4o, and Llama-3 models (each finetuned to predict itself), we find that the model M1 outperforms M2 in predicting itself, providing evidence for introspection. Notably, M1 continues to predict its behavior accurately even after we intentionally modify its ground-truth behavior. However, while we successfully elicit introspection on simple tasks, we are unsuccessful on more complex tasks or those requiring out-of-distribution generalization.

Regarder vers l'intérieur : les modèles de langage peuvent apprendre à propos d'eux-mêmes par introspection.

Looking Inward: Language Models Can Learn About Themselves by Introspection

Résumé

Support