Fai attenzione al tuo passo (passo dopo passo): il filo del pensiero può ridurre le prestazioni in compiti in cui il pensiero rende gli esseri umani peggiori.
Mind Your Step (by Step): Chain-of-Thought can Reduce Performance on Tasks where Thinking Makes Humans Worse
October 27, 2024
Autori: Ryan Liu, Jiayi Geng, Addison J. Wu, Ilia Sucholutsky, Tania Lombrozo, Thomas L. Griffiths
cs.AI
Abstract
Il prompting a catena di pensiero (CoT) è diventato una strategia ampiamente utilizzata per lavorare con modelli linguistici e multimodali di grandi dimensioni. Sebbene il CoT abbia dimostrato di migliorare le prestazioni in molte attività, determinare le condizioni in cui è efficace rimane un impegno in corso. In particolare, è ancora una questione aperta in quali contesti il CoT riduca sistematicamente le prestazioni del modello. In questo articolo, cerchiamo di identificare le caratteristiche delle attività in cui il CoT riduce le prestazioni, prendendo ispirazione dalla psicologia cognitiva, esaminando casi in cui (i) il pensiero verbale o la deliberazione danneggiano le prestazioni umane e (ii) i vincoli che regolano le prestazioni umane si generalizzano ai modelli linguistici. Tre casi simili sono il learning statistico implicito, il riconoscimento visivo e la classificazione con schemi contenenti eccezioni. In esperimenti approfonditi in tutti e tre i contesti, scopriamo che una vasta gamma di modelli all'avanguardia mostra significativi cali di prestazioni (ad esempio, fino al 36,3% di accuratezza assoluta per OpenAI o1-preview rispetto a GPT-4o) quando si utilizza il ragionamento al momento dell'inferenza rispetto ai corrispettivi zero-shot. Identifichiamo anche tre attività che soddisfano la condizione (i) ma non la (ii) e scopriamo che mentre il pensiero verbale riduce le prestazioni umane in queste attività, il CoT mantiene o aumenta le prestazioni del modello. Nel complesso, i nostri risultati mostrano che sebbene non ci sia un parallelo esatto tra i processi cognitivi dei modelli e quelli degli esseri umani, considerare i casi in cui il pensiero ha conseguenze negative sulle prestazioni umane può aiutarci a identificare i contesti in cui influisce negativamente sui modelli. Collegando la letteratura sulla deliberazione umana alle valutazioni del CoT, offriamo uno strumento nuovo che può essere utilizzato per comprendere l'impatto delle scelte di prompt e del ragionamento al momento dell'inferenza.
English
Chain-of-thought (CoT) prompting has become a widely used strategy for
working with large language and multimodal models. While CoT has been shown to
improve performance across many tasks, determining the settings in which it is
effective remains an ongoing effort. In particular, it is still an open
question in what settings CoT systematically reduces model performance. In this
paper, we seek to identify the characteristics of tasks where CoT reduces
performance by drawing inspiration from cognitive psychology, looking at cases
where (i) verbal thinking or deliberation hurts performance in humans, and (ii)
the constraints governing human performance generalize to language models.
Three such cases are implicit statistical learning, visual recognition, and
classifying with patterns containing exceptions. In extensive experiments
across all three settings, we find that a diverse collection of
state-of-the-art models exhibit significant drop-offs in performance (e.g., up
to 36.3% absolute accuracy for OpenAI o1-preview compared to GPT-4o) when using
inference-time reasoning compared to zero-shot counterparts. We also identify
three tasks that satisfy condition (i) but not (ii), and find that while verbal
thinking reduces human performance in these tasks, CoT retains or increases
model performance. Overall, our results show that while there is not an exact
parallel between the cognitive processes of models and those of humans,
considering cases where thinking has negative consequences for human
performance can help us identify settings where it negatively impacts models.
By connecting the literature on human deliberation with evaluations of CoT, we
offer a new tool that can be used in understanding the impact of prompt choices
and inference-time reasoning.Summary
AI-Generated Summary