O1-Pruner: Längenharmonisierendes Feintuning für O1-ähnliches Schlussfolgerungs-Pruning

Zusammenfassung

In letzter Zeit übernehmen lang überlegte Schlussfolgerungs-LLMs, wie OpenAIs O1, erweiterte Schlussfolgerungsprozesse, die ähnlich sind wie die Art und Weise, wie Menschen über komplexe Probleme nachdenken. Dieses Schlussfolgerungsparadigma verbessert signifikant die Problemlösungsfähigkeiten des Modells und hat vielversprechende Ergebnisse erzielt. Allerdings führt der lang überlegte Schlussfolgerungsprozess zu einer erheblichen Zunahme der Inferenzzeit. Eine dringende Herausforderung besteht darin, den Inferenzaufwand von lang überlegten LLMs zu reduzieren, während die Genauigkeit gewährleistet wird. In diesem Papier zeigen wir experimentell, dass lang überlegte Schlussfolgerungsmodelle Schwierigkeiten haben, Token-Budgets basierend auf der Problemkomplexität und Schlussfolgerungsüberflüssigkeiten effektiv zuzuweisen. Um dies zu lösen, schlagen wir das Längen-Harmonisierungs-Finetuning (O1-Pruner) vor, das darauf abzielt, den Schlussfolgerungsaufwand zu minimieren, während die Genauigkeit beibehalten wird. Diese effektive Feinabstimmungsmethode schätzt zunächst die Baseline-Leistung des LLMs durch Vorabstichproben ab und verwendet dann ein RL-ähnliches Feintuning, um das Modell dazu zu ermutigen, kürzere Schlussfolgerungsprozesse unter Genauigkeitsbeschränkungen zu generieren. Dies ermöglicht es dem Modell, effiziente Schlussfolgerungen mit geringerer Redundanz zu erreichen, während die Genauigkeit beibehalten wird. Experimente an verschiedenen mathematischen Schlussfolgerungs-Benchmarks zeigen, dass O1-Pruner nicht nur den Inferenzaufwand signifikant reduziert, sondern auch eine höhere Genauigkeit erzielt und somit eine neuartige und vielversprechende Lösung für diese Herausforderung bietet. Unser Code wird bald unter https://github.com/StarDewXXX/O1-Pruner verfügbar sein.

English

Recently, long-thought reasoning LLMs, such as OpenAI's O1, adopt extended reasoning processes similar to how humans ponder over complex problems. This reasoning paradigm significantly enhances the model's problem-solving abilities and has achieved promising results. However, long-thought reasoning process leads to a substantial increase in inference time. A pressing challenge is reducing the inference overhead of long-thought LLMs while ensuring accuracy. In this paper, we experimentally demonstrate that long-thought reasoning models struggle to effectively allocate token budgets based on problem difficulty and reasoning redundancies. To address this, we propose Length-Harmonizing Fine-Tuning (O1-Pruner), aiming at minimizing reasoning overhead while maintaining accuracy. This effective fine-tuning method first estimates the LLM's baseline performance through pre-sampling and then uses RL-style fine-tuning to encourage the model to generate shorter reasoning processes under accuracy constraints. This allows the model to achieve efficient reasoning with lower redundancy while maintaining accuracy. Experiments on various mathematical reasoning benchmarks show that O1-Pruner not only significantly reduces inference overhead but also achieves higher accuracy, providing a novel and promising solution to this challenge. Our code is coming soon at https://github.com/StarDewXXX/O1-Pruner

O1-Pruner: Längenharmonisierendes Feintuning für O1-ähnliches Schlussfolgerungs-Pruning

O1-Pruner: Length-Harmonizing Fine-Tuning for O1-Like Reasoning Pruning

Zusammenfassung

Summary

Support

Support