ChatPaper.aiChatPaper

Autellix: 범용 프로그램으로서의 LLM 에이전트를 위한 효율적인 서빙 엔진

Autellix: An Efficient Serving Engine for LLM Agents as General Programs

February 19, 2025
저자: Michael Luo, Xiaoxiang Shi, Colin Cai, Tianjun Zhang, Justin Wong, Yichuan Wang, Chi Wang, Yanping Huang, Zhifeng Chen, Joseph E. Gonzalez, Ion Stoica
cs.AI

초록

대형 언어 모델(LLM) 애플리케이션은 단순한 챗봇을 넘어 동적이고 범용적인 에이전트 프로그램으로 진화하고 있으며, 이를 통해 LLM 호출과 출력 토큰을 확장하여 AI 에이전트가 복잡한 작업을 추론, 탐색 및 해결할 수 있도록 지원합니다. 그러나 기존의 LLM 서빙 시스템은 프로그램과 호출 간의 의존성을 무시함으로써 최적화의 중요한 기회를 놓치고 있습니다. 우리의 분석에 따르면, LLM 서빙 엔진에 제출된 프로그램은 개별 LLM 요청과 프로그램 모두에서 선두 차단(head-of-line blocking)으로 인해 누적 대기 시간이 길어지는 것으로 나타났습니다. 이를 해결하기 위해 우리는 프로그램을 일급 객체로 취급하여 종단 간 지연 시간을 최소화하는 LLM 서빙 시스템인 Autellix를 소개합니다. Autellix는 프로그램이 제출한 LLM 호출을 가로채어 스케줄러에 프로그램 수준의 컨텍스트를 제공합니다. 우리는 단일 스레드 프로그램과 분산 프로그램을 위한 두 가지 스케줄링 알고리즘을 제안하며, 이 알고리즘은 프로그램의 이전에 완료된 호출을 기반으로 LLM 호출을 선점하고 우선순위를 부여합니다. 평가 결과, 다양한 LLM과 에이전트 워크로드에서 Autellix는 vLLM과 같은 최신 시스템과 동일한 지연 시간에서 프로그램의 처리량을 4~15배 향상시키는 것으로 나타났습니다.
English
Large language model (LLM) applications are evolving beyond simple chatbots into dynamic, general-purpose agentic programs, which scale LLM calls and output tokens to help AI agents reason, explore, and solve complex tasks. However, existing LLM serving systems ignore dependencies between programs and calls, missing significant opportunities for optimization. Our analysis reveals that programs submitted to LLM serving engines experience long cumulative wait times, primarily due to head-of-line blocking at both the individual LLM request and the program. To address this, we introduce Autellix, an LLM serving system that treats programs as first-class citizens to minimize their end-to-end latencies. Autellix intercepts LLM calls submitted by programs, enriching schedulers with program-level context. We propose two scheduling algorithms-for single-threaded and distributed programs-that preempt and prioritize LLM calls based on their programs' previously completed calls. Our evaluation demonstrates that across diverse LLMs and agentic workloads, Autellix improves throughput of programs by 4-15x at the same latency compared to state-of-the-art systems, such as vLLM.

Summary

AI-Generated Summary

PDF152February 20, 2025