O1-Pruner: Lengte-Harmoniserende Fijnafstemming voor O1-achtige Redeneringspruning

Samenvatting

Onlangs hebben langdurig redenerende LLM's, zoals OpenAI's O1, uitgebreide redeneerprocessen aangenomen die vergelijkbaar zijn met hoe mensen nadenken over complexe problemen. Dit redeneerparadigma verbetert aanzienlijk de probleemoplossende vaardigheden van het model en heeft veelbelovende resultaten opgeleverd. Echter, het langdurige redeneerproces leidt tot een aanzienlijke toename in inferentietijd. Een dringende uitdaging is het verminderen van de inferentie-overhead van langdurig redenerende LLM's terwijl de nauwkeurigheid wordt gewaarborgd. In dit artikel tonen we experimenteel aan dat langdurig redenerende modellen moeite hebben met het effectief toewijzen van tokenbudgetten op basis van probleemcomplexiteit en redeneeroverlappingen. Om dit aan te pakken, stellen we Length-Harmonizing Fine-Tuning (O1-Pruner) voor, met als doel redeneeroverhead te minimaliseren terwijl de nauwkeurigheid wordt behouden. Deze effectieve fine-tuning methode schat eerst de basale prestaties van de LLM in door vooraf te monsteren en gebruikt vervolgens RL-stijl fine-tuning om het model aan te moedigen kortere redeneerprocessen te genereren binnen nauwkeurigheidsbeperkingen. Dit stelt het model in staat om efficiënt te redeneren met minder redundantie terwijl de nauwkeurigheid behouden blijft. Experimenten op verschillende wiskundige redeneerbenchmarks tonen aan dat O1-Pruner niet alleen de inferentie-overhead aanzienlijk vermindert, maar ook een hogere nauwkeurigheid behaalt, waardoor een nieuwe en veelbelovende oplossing wordt geboden voor deze uitdaging. Onze code komt binnenkort beschikbaar op https://github.com/StarDewXXX/O1-Pruner

English

Recently, long-thought reasoning LLMs, such as OpenAI's O1, adopt extended reasoning processes similar to how humans ponder over complex problems. This reasoning paradigm significantly enhances the model's problem-solving abilities and has achieved promising results. However, long-thought reasoning process leads to a substantial increase in inference time. A pressing challenge is reducing the inference overhead of long-thought LLMs while ensuring accuracy. In this paper, we experimentally demonstrate that long-thought reasoning models struggle to effectively allocate token budgets based on problem difficulty and reasoning redundancies. To address this, we propose Length-Harmonizing Fine-Tuning (O1-Pruner), aiming at minimizing reasoning overhead while maintaining accuracy. This effective fine-tuning method first estimates the LLM's baseline performance through pre-sampling and then uses RL-style fine-tuning to encourage the model to generate shorter reasoning processes under accuracy constraints. This allows the model to achieve efficient reasoning with lower redundancy while maintaining accuracy. Experiments on various mathematical reasoning benchmarks show that O1-Pruner not only significantly reduces inference overhead but also achieves higher accuracy, providing a novel and promising solution to this challenge. Our code is coming soon at https://github.com/StarDewXXX/O1-Pruner

O1-Pruner: Lengte-Harmoniserende Fijnafstemming voor O1-achtige Redeneringspruning

O1-Pruner: Length-Harmonizing Fine-Tuning for O1-Like Reasoning Pruning

Samenvatting

Summary

Support