Servire efficientemente i programmi di ragionamento LLM con Certaindex.

Efficiently Serving LLM Reasoning Programs with Certaindex

December 30, 2024
Autori: Yichao Fu, Junda Chen, Siqi Zhu, Zheyu Fu, Zhongdongming Dai, Aurick Qiao, Hao Zhang
cs.AI

Abstract

La rapida evoluzione dei grandi modelli linguistici (LLM) ha sbloccato le loro capacità in compiti avanzati di ragionamento come la risoluzione di problemi matematici, la generazione di codice e l'analisi legale. Al centro di questo progresso ci sono gli algoritmi di ragionamento in tempo di inferenza, che perfezionano gli output esplorando più percorsi di soluzione, a discapito dell'aumento delle richieste computazionali e delle latenze di risposta. I sistemi di servizio esistenti non riescono ad adattarsi ai comportamenti di scalabilità di questi algoritmi o alla variazione della complessità delle query, portando a un uso inefficiente delle risorse e al mancato raggiungimento degli obiettivi di latenza. Presentiamo Dynasor, un sistema che ottimizza il calcolo in tempo di inferenza per le query di ragionamento dei LLM. A differenza dei motori tradizionali, Dynasor tiene traccia e pianifica le richieste all'interno delle query di ragionamento e utilizza Certaindex, un proxy che misura il progresso del ragionamento statistico basato sulla certezza del modello, per guidare dinamicamente l'allocazione computazionale. Dynasor adatta congiuntamente la pianificazione al progresso del ragionamento: assegna più calcolo alle query difficili, riduce il calcolo per quelle più semplici e termina precocemente le query non promettenti, bilanciando precisione, latenza e costo. Su dataset e algoritmi diversi, Dynasor riduce il calcolo fino al 50% nel processamento batch e mantiene tassi di query fino a 3,3 volte più elevati o obiettivi di latenza fino a 4,7 volte più stringenti nel servizio online.
English
The rapid evolution of large language models (LLMs) has unlocked their capabilities in advanced reasoning tasks like mathematical problem-solving, code generation, and legal analysis. Central to this progress are inference-time reasoning algorithms, which refine outputs by exploring multiple solution paths, at the cost of increasing compute demands and response latencies. Existing serving systems fail to adapt to the scaling behaviors of these algorithms or the varying difficulty of queries, leading to inefficient resource use and unmet latency targets. We present Dynasor, a system that optimizes inference-time compute for LLM reasoning queries. Unlike traditional engines, Dynasor tracks and schedules requests within reasoning queries and uses Certaindex, a proxy that measures statistical reasoning progress based on model certainty, to guide compute allocation dynamically. Dynasor co-adapts scheduling with reasoning progress: it allocates more compute to hard queries, reduces compute for simpler ones, and terminates unpromising queries early, balancing accuracy, latency, and cost. On diverse datasets and algorithms, Dynasor reduces compute by up to 50% in batch processing and sustaining 3.3x higher query rates or 4.7x tighter latency SLOs in online serving.

Summary

AI-Generated Summary

PDF352December 31, 2024