O1-Pruner: Lengte-Harmoniserende Fijnafstemming voor O1-achtige Redeneringspruning
O1-Pruner: Length-Harmonizing Fine-Tuning for O1-Like Reasoning Pruning
January 22, 2025
Auteurs: Haotian Luo, Li Shen, Haiying He, Yibo Wang, Shiwei Liu, Wei Li, Naiqiang Tan, Xiaochun Cao, Dacheng Tao
cs.AI
Samenvatting
Onlangs hebben langdurig redenerende LLM's, zoals OpenAI's O1, uitgebreide redeneerprocessen aangenomen die vergelijkbaar zijn met hoe mensen nadenken over complexe problemen. Dit redeneerparadigma verbetert aanzienlijk de probleemoplossende vaardigheden van het model en heeft veelbelovende resultaten opgeleverd. Echter, het langdurige redeneerproces leidt tot een aanzienlijke toename in inferentietijd. Een dringende uitdaging is het verminderen van de inferentie-overhead van langdurig redenerende LLM's terwijl de nauwkeurigheid wordt gewaarborgd. In dit artikel tonen we experimenteel aan dat langdurig redenerende modellen moeite hebben met het effectief toewijzen van tokenbudgetten op basis van probleemcomplexiteit en redeneeroverlappingen. Om dit aan te pakken, stellen we Length-Harmonizing Fine-Tuning (O1-Pruner) voor, met als doel redeneeroverhead te minimaliseren terwijl de nauwkeurigheid wordt behouden. Deze effectieve fine-tuning methode schat eerst de basale prestaties van de LLM in door vooraf te monsteren en gebruikt vervolgens RL-stijl fine-tuning om het model aan te moedigen kortere redeneerprocessen te genereren binnen nauwkeurigheidsbeperkingen. Dit stelt het model in staat om efficiënt te redeneren met minder redundantie terwijl de nauwkeurigheid behouden blijft. Experimenten op verschillende wiskundige redeneerbenchmarks tonen aan dat O1-Pruner niet alleen de inferentie-overhead aanzienlijk vermindert, maar ook een hogere nauwkeurigheid behaalt, waardoor een nieuwe en veelbelovende oplossing wordt geboden voor deze uitdaging. Onze code komt binnenkort beschikbaar op https://github.com/StarDewXXX/O1-Pruner
English
Recently, long-thought reasoning LLMs, such as OpenAI's O1, adopt extended
reasoning processes similar to how humans ponder over complex problems. This
reasoning paradigm significantly enhances the model's problem-solving abilities
and has achieved promising results. However, long-thought reasoning process
leads to a substantial increase in inference time. A pressing challenge is
reducing the inference overhead of long-thought LLMs while ensuring accuracy.
In this paper, we experimentally demonstrate that long-thought reasoning models
struggle to effectively allocate token budgets based on problem difficulty and
reasoning redundancies. To address this, we propose Length-Harmonizing
Fine-Tuning (O1-Pruner), aiming at minimizing reasoning overhead while
maintaining accuracy. This effective fine-tuning method first estimates the
LLM's baseline performance through pre-sampling and then uses RL-style
fine-tuning to encourage the model to generate shorter reasoning processes
under accuracy constraints. This allows the model to achieve efficient
reasoning with lower redundancy while maintaining accuracy. Experiments on
various mathematical reasoning benchmarks show that O1-Pruner not only
significantly reduces inference overhead but also achieves higher accuracy,
providing a novel and promising solution to this challenge. Our code is coming
soon at https://github.com/StarDewXXX/O1-PrunerSummary
AI-Generated Summary