O1-Pruner: Längenharmonisierendes Feintuning für O1-ähnliches Schlussfolgerungs-Pruning
O1-Pruner: Length-Harmonizing Fine-Tuning for O1-Like Reasoning Pruning
January 22, 2025
Autoren: Haotian Luo, Li Shen, Haiying He, Yibo Wang, Shiwei Liu, Wei Li, Naiqiang Tan, Xiaochun Cao, Dacheng Tao
cs.AI
Zusammenfassung
In letzter Zeit übernehmen lang überlegte Schlussfolgerungs-LLMs, wie OpenAIs O1, erweiterte Schlussfolgerungsprozesse, die ähnlich sind wie die Art und Weise, wie Menschen über komplexe Probleme nachdenken. Dieses Schlussfolgerungsparadigma verbessert signifikant die Problemlösungsfähigkeiten des Modells und hat vielversprechende Ergebnisse erzielt. Allerdings führt der lang überlegte Schlussfolgerungsprozess zu einer erheblichen Zunahme der Inferenzzeit. Eine dringende Herausforderung besteht darin, den Inferenzaufwand von lang überlegten LLMs zu reduzieren, während die Genauigkeit gewährleistet wird. In diesem Papier zeigen wir experimentell, dass lang überlegte Schlussfolgerungsmodelle Schwierigkeiten haben, Token-Budgets basierend auf der Problemkomplexität und Schlussfolgerungsüberflüssigkeiten effektiv zuzuweisen. Um dies zu lösen, schlagen wir das Längen-Harmonisierungs-Finetuning (O1-Pruner) vor, das darauf abzielt, den Schlussfolgerungsaufwand zu minimieren, während die Genauigkeit beibehalten wird. Diese effektive Feinabstimmungsmethode schätzt zunächst die Baseline-Leistung des LLMs durch Vorabstichproben ab und verwendet dann ein RL-ähnliches Feintuning, um das Modell dazu zu ermutigen, kürzere Schlussfolgerungsprozesse unter Genauigkeitsbeschränkungen zu generieren. Dies ermöglicht es dem Modell, effiziente Schlussfolgerungen mit geringerer Redundanz zu erreichen, während die Genauigkeit beibehalten wird. Experimente an verschiedenen mathematischen Schlussfolgerungs-Benchmarks zeigen, dass O1-Pruner nicht nur den Inferenzaufwand signifikant reduziert, sondern auch eine höhere Genauigkeit erzielt und somit eine neuartige und vielversprechende Lösung für diese Herausforderung bietet. Unser Code wird bald unter https://github.com/StarDewXXX/O1-Pruner verfügbar sein.
English
Recently, long-thought reasoning LLMs, such as OpenAI's O1, adopt extended
reasoning processes similar to how humans ponder over complex problems. This
reasoning paradigm significantly enhances the model's problem-solving abilities
and has achieved promising results. However, long-thought reasoning process
leads to a substantial increase in inference time. A pressing challenge is
reducing the inference overhead of long-thought LLMs while ensuring accuracy.
In this paper, we experimentally demonstrate that long-thought reasoning models
struggle to effectively allocate token budgets based on problem difficulty and
reasoning redundancies. To address this, we propose Length-Harmonizing
Fine-Tuning (O1-Pruner), aiming at minimizing reasoning overhead while
maintaining accuracy. This effective fine-tuning method first estimates the
LLM's baseline performance through pre-sampling and then uses RL-style
fine-tuning to encourage the model to generate shorter reasoning processes
under accuracy constraints. This allows the model to achieve efficient
reasoning with lower redundancy while maintaining accuracy. Experiments on
various mathematical reasoning benchmarks show that O1-Pruner not only
significantly reduces inference overhead but also achieves higher accuracy,
providing a novel and promising solution to this challenge. Our code is coming
soon at https://github.com/StarDewXXX/O1-PrunerSummary
AI-Generated Summary