Adaptief Parallel Redeneren Leren met Taalmodellen
Learning Adaptive Parallel Reasoning with Language Models
April 21, 2025
Auteurs: Jiayi Pan, Xiuyu Li, Long Lian, Charlie Snell, Yifei Zhou, Adam Yala, Trevor Darrell, Kurt Keutzer, Alane Suhr
cs.AI
Samenvatting
Het schalen van berekeningen tijdens inferentie heeft de redeneervaardigheden van taalmodellen aanzienlijk verbeterd. Bestaande methoden hebben echter belangrijke beperkingen: geserialiseerde chain-of-thought-benaderingen genereren te lange uitvoer, wat leidt tot verhoogde latentie en uitgeputte contextvensters, terwijl parallelle methoden zoals self-consistency lijden onder onvoldoende coördinatie, wat resulteert in redundante berekeningen en beperkte prestatieverbeteringen. Om deze tekortkomingen aan te pakken, stellen we Adaptive Parallel Reasoning (APR) voor, een nieuw redeneerkader dat taalmodellen in staat stelt om zowel geserialiseerde als parallelle berekeningen end-to-end te coördineren. APR generaliseert bestaande redeneermethoden door adaptieve multi-threaded inferentie mogelijk te maken met behulp van spawn()- en join()-operaties. Een belangrijke innovatie is onze end-to-end reinforcement learning-strategie, die zowel bovenliggende als onderliggende inferentiedraden optimaliseert om de taakslagingskans te vergroten zonder vooraf gedefinieerde redeneerstructuren te vereisen. Experimenten op de Countdown-redeneertaak demonstreren aanzienlijke voordelen van APR: (1) hogere prestaties binnen hetzelfde contextvenster (83,4% vs. 60,0% bij 4k context); (2) superieure schaalbaarheid bij verhoogde berekening (80,1% vs. 66,6% bij 20k totale tokens); (3) verbeterde nauwkeurigheid bij equivalente latentie (75,2% vs. 57,3% bij ongeveer 5.000ms). APR vertegenwoordigt een stap in de richting van het mogelijk maken van taalmodelen om hun redeneerprocessen autonoom te optimaliseren door adaptieve toewijzing van berekening.
English
Scaling inference-time computation has substantially improved the reasoning
capabilities of language models. However, existing methods have significant
limitations: serialized chain-of-thought approaches generate overly long
outputs, leading to increased latency and exhausted context windows, while
parallel methods such as self-consistency suffer from insufficient
coordination, resulting in redundant computations and limited performance
gains. To address these shortcomings, we propose Adaptive Parallel Reasoning
(APR), a novel reasoning framework that enables language models to orchestrate
both serialized and parallel computations end-to-end. APR generalizes existing
reasoning methods by enabling adaptive multi-threaded inference using spawn()
and join() operations. A key innovation is our end-to-end reinforcement
learning strategy, optimizing both parent and child inference threads to
enhance task success rate without requiring predefined reasoning structures.
Experiments on the Countdown reasoning task demonstrate significant benefits of
APR: (1) higher performance within the same context window (83.4% vs. 60.0% at
4k context); (2) superior scalability with increased computation (80.1% vs.
66.6% at 20k total tokens); (3) improved accuracy at equivalent latency (75.2%
vs. 57.3% at approximately 5,000ms). APR represents a step towards enabling
language models to autonomously optimize their reasoning processes through
adaptive allocation of computation.Summary
AI-Generated Summary