특정덱스를 활용하여 LLM 추론 프로그램을 효율적으로 제공하기
Efficiently Serving LLM Reasoning Programs with Certaindex
December 30, 2024
저자: Yichao Fu, Junda Chen, Siqi Zhu, Zheyu Fu, Zhongdongming Dai, Aurick Qiao, Hao Zhang
cs.AI
초록
대형 언어 모델(LLMs)의 신속한 발전은 수학 문제 해결, 코드 생성 및 법률 분석과 같은 고급 추론 작업에서 그들의 능력을 발휘하게 했다. 이 발전의 핵심은 추론 시간 추론 알고리즘인데, 이 알고리즘은 여러 해결 경로를 탐색하여 출력을 개선함으로써 계산 요구량과 응답 지연 시간을 증가시킨다. 기존의 서비스 시스템은 이러한 알고리즘의 확장 행동이나 쿼리의 다양한 난이도에 적응하지 못하여 비효율적인 자원 사용과 미달된 응답 시간 목표를 초래한다.
우리는 LLM 추론 쿼리의 추론 시간 계산을 최적화하는 Dynasor 시스템을 제안한다. 전통적인 엔진과는 달리 Dynasor는 추론 쿼리 내에서 요청을 추적하고 일정을 조정하며, 모델의 확신에 기초한 통계적 추론 진행을 측정하는 Certaindex를 사용하여 계산 할당을 동적으로 안내한다. Dynasor는 일정과 추론 진행을 공동으로 적응시킨다: 어려운 쿼리에 더 많은 계산을 할당하고 더 간단한 쿼리에는 계산을 줄이며, 희망이 없는 쿼리를 조기에 종료하여 정확성, 지연 시간 및 비용을 균형있게 유지한다. 다양한 데이터셋과 알고리즘에서 Dynasor는 일괄 처리에서 최대 50%의 계산을 줄이고 온라인 서비스에서는 3.3배 더 높은 쿼리 속도를 유지하거나 4.7배 더 촘촘한 지연 시간 SLO를 제공한다.
English
The rapid evolution of large language models (LLMs) has unlocked their
capabilities in advanced reasoning tasks like mathematical problem-solving,
code generation, and legal analysis. Central to this progress are
inference-time reasoning algorithms, which refine outputs by exploring multiple
solution paths, at the cost of increasing compute demands and response
latencies. Existing serving systems fail to adapt to the scaling behaviors of
these algorithms or the varying difficulty of queries, leading to inefficient
resource use and unmet latency targets.
We present Dynasor, a system that optimizes inference-time compute for LLM
reasoning queries. Unlike traditional engines, Dynasor tracks and schedules
requests within reasoning queries and uses Certaindex, a proxy that measures
statistical reasoning progress based on model certainty, to guide compute
allocation dynamically. Dynasor co-adapts scheduling with reasoning progress:
it allocates more compute to hard queries, reduces compute for simpler ones,
and terminates unpromising queries early, balancing accuracy, latency, and
cost. On diverse datasets and algorithms, Dynasor reduces compute by up to 50%
in batch processing and sustaining 3.3x higher query rates or 4.7x tighter
latency SLOs in online serving.Summary
AI-Generated Summary