Implizite verzerrungsähnliche Muster in Reasoning-Modellen
Implicit Bias-Like Patterns in Reasoning Models
March 14, 2025
Autoren: Messi H. J. Lee, Calvin K. Lai
cs.AI
Zusammenfassung
Implizite Voreingenommenheit bezieht sich auf automatische oder spontane mentale Prozesse, die Wahrnehmungen, Urteile und Verhaltensweisen prägen. Bisherige Forschungen, die „implizite Voreingenommenheit“ in großen Sprachmodellen (LLMs) untersucht haben, haben das Phänomen oft anders angegangen als in Studien mit Menschen, indem sie sich primär auf Modellausgaben konzentrierten anstatt auf die Modellverarbeitung. Um die Modellverarbeitung zu untersuchen, stellen wir eine Methode namens Reasoning Model Implicit Association Test (RM-IAT) vor, um implizite voreingenommene Muster in Reasoning-Modellen zu studieren: LLMs, die schrittweise Argumentation verwenden, um komplexe Aufgaben zu lösen. Mit dieser Methode finden wir heraus, dass Reasoning-Modelle mehr Tokens benötigen, wenn sie assoziationsinkompatible Informationen verarbeiten, verglichen mit assoziationskompatiblen Informationen. Diese Ergebnisse legen nahe, dass KI-Systeme Muster in der Informationsverarbeitung aufweisen, die der menschlichen impliziten Voreingenommenheit analog sind. Wir betrachten die Implikationen dieser impliziten voreingenommenen Muster für ihren Einsatz in realen Anwendungen.
English
Implicit bias refers to automatic or spontaneous mental processes that shape
perceptions, judgments, and behaviors. Previous research examining `implicit
bias' in large language models (LLMs) has often approached the phenomenon
differently than how it is studied in humans by focusing primarily on model
outputs rather than on model processing. To examine model processing, we
present a method called the Reasoning Model Implicit Association Test (RM-IAT)
for studying implicit bias-like patterns in reasoning models: LLMs that employ
step-by-step reasoning to solve complex tasks. Using this method, we find that
reasoning models require more tokens when processing association-incompatible
information compared to association-compatible information. These findings
suggest AI systems harbor patterns in processing information that are analogous
to human implicit bias. We consider the implications of these implicit
bias-like patterns for their deployment in real-world applications.Summary
AI-Generated Summary