무한 컨텍스트 처리: 메모리 제한된 LLMs에서
InfiniPot: Infinite Context Processing on Memory-Constrained LLMs
October 2, 2024
저자: Minsoo Kim, Kyuhong Shim, Jungwook Choi, Simyung Chang
cs.AI
초록
긴 입력 맥락을 처리하는 것은 특히 모바일 기기와 같은 자원 제한 환경에서 대규모 언어 모델(LLMs)에 대한 중요한 과제입니다. 저희 연구는 이 한계를 해결하기 위해 InfiniPot을 소개함으로써 고정된 메모리 제약 내에서 사전 훈련된 LLMs가 효율적으로 방대한 시퀀스를 관리할 수 있도록 하는 새로운 KV 캐시 제어 프레임워크를 개발하는 것을 목표로 합니다. InfiniPot은 Continual Context Distillation (CCD)을 활용하여 중요성 지표를 통해 핵심 정보를 압축하고 유지하는 반복적인 과정을 통해 핵심 데이터를 효과적으로 유지함으로써 미래 맥락에 대한 액세스 없이도 중요한 데이터를 유지합니다. 저희의 포괄적인 평가 결과는 InfiniPot이 다양한 NLP 작업에서 긴 맥락에 대해 훈련된 모델을 크게 능가함을 보여주며, 이는 InfiniPot의 효과성과 다재다능성을 입증합니다. 이 연구는 LLMs를 보다 다양한 실제 시나리오에 적용 가능하도록 하는 중요한 발전을 나타냅니다.
English
Handling long input contexts remains a significant challenge for Large
Language Models (LLMs), particularly in resource-constrained environments such
as mobile devices. Our work aims to address this limitation by introducing
InfiniPot, a novel KV cache control framework designed to enable pre-trained
LLMs to manage extensive sequences within fixed memory constraints efficiently,
without requiring additional training. InfiniPot leverages Continual Context
Distillation (CCD), an iterative process that compresses and retains essential
information through novel importance metrics, effectively maintaining critical
data even without access to future context. Our comprehensive evaluations
indicate that InfiniPot significantly outperforms models trained for long
contexts in various NLP tasks, establishing its efficacy and versatility. This
work represents a substantial advancement toward making LLMs applicable to a
broader range of real-world scenarios.Summary
AI-Generated Summary