Servindo eficientemente Programas de Raciocínio LLM com Certaindex
Efficiently Serving LLM Reasoning Programs with Certaindex
December 30, 2024
Autores: Yichao Fu, Junda Chen, Siqi Zhu, Zheyu Fu, Zhongdongming Dai, Aurick Qiao, Hao Zhang
cs.AI
Resumo
A rápida evolução dos grandes modelos de linguagem (LLMs) desbloqueou suas capacidades em tarefas avançadas de raciocínio, como resolução de problemas matemáticos, geração de código e análise jurídica. Central a esse progresso estão os algoritmos de raciocínio em tempo de inferência, que refinam as saídas explorando múltiplos caminhos de solução, ao custo de aumentar as demandas computacionais e as latências de resposta. Os sistemas de atendimento existentes falham em se adaptar aos comportamentos de escalonamento desses algoritmos ou à variação da dificuldade das consultas, levando a um uso ineficiente de recursos e a não atender às metas de latência.
Apresentamos o Dynasor, um sistema que otimiza o cálculo em tempo de inferência para consultas de raciocínio de LLM. Ao contrário dos motores tradicionais, o Dynasor rastreia e agenda solicitações dentro de consultas de raciocínio e utiliza o Certaindex, um proxy que mede o progresso estatístico do raciocínio com base na certeza do modelo, para orientar a alocação de cálculo dinamicamente. O Dynasor coadapta o agendamento com o progresso do raciocínio: aloca mais cálculo para consultas difíceis, reduz o cálculo para as mais simples e encerra consultas pouco promissoras precocemente, equilibrando precisão, latência e custo. Em conjuntos de dados e algoritmos diversos, o Dynasor reduz o cálculo em até 50% no processamento em lote e mantém taxas de consulta 3,3 vezes mais altas ou SLOs de latência 4,7 vezes mais rigorosos no atendimento online.
English
The rapid evolution of large language models (LLMs) has unlocked their
capabilities in advanced reasoning tasks like mathematical problem-solving,
code generation, and legal analysis. Central to this progress are
inference-time reasoning algorithms, which refine outputs by exploring multiple
solution paths, at the cost of increasing compute demands and response
latencies. Existing serving systems fail to adapt to the scaling behaviors of
these algorithms or the varying difficulty of queries, leading to inefficient
resource use and unmet latency targets.
We present Dynasor, a system that optimizes inference-time compute for LLM
reasoning queries. Unlike traditional engines, Dynasor tracks and schedules
requests within reasoning queries and uses Certaindex, a proxy that measures
statistical reasoning progress based on model certainty, to guide compute
allocation dynamically. Dynasor co-adapts scheduling with reasoning progress:
it allocates more compute to hard queries, reduces compute for simpler ones,
and terminates unpromising queries early, balancing accuracy, latency, and
cost. On diverse datasets and algorithms, Dynasor reduces compute by up to 50%
in batch processing and sustaining 3.3x higher query rates or 4.7x tighter
latency SLOs in online serving.Summary
AI-Generated Summary