HARP: 헤지테이션 인식을 고려한 트랜스포머 추론 과정에서의 재구성
HARP: Hesitation-Aware Reframing in Transformer Inference Pass
December 10, 2024
저자: Romain Storaï, Seung-won Hwang
cs.AI
초록
본 논문은 대형 언어 모델의 성능을 향상시키기 위해 추론 단계에서 발생하는 가변적인 계산 요구를 다루고자 합니다. 일부 토큰이 다른 것들보다 더 많은 계산 자원을 필요로 하는 경우가 있습니다. 본 연구에서는 HARP를 제안합니다. 이는 "기본" Transformer 전방 통과에 간단한 수정을 가한 것입니다. 결정 내릴 때의 망설임과 프레임 효과에서 영감을 받아, HARP는 모델이 토큰 생성 중에 불확실성을 만났을 때 추가 계산을 선택적으로 적용합니다. 우리의 방법은 어려운 결정 지점에서 일시 중단하고 다른 관점으로 입력을 재구성함으로써 인간의 인지 과정을 모방합니다. 다른 접근법과는 달리, HARP는 모델에 구애받지 않으며, 훈련이 필요 없으며, 구현이 쉽습니다. 우리는 다양한 하위 작업과 모델 크기를 통해 우리의 방법을 철저히 평가하고, 성능 향상을 최대 +5.16%까지 보여줍니다. 특히, HARP는 추론 시간을 빔 탐색보다 두 배 빠르게 유지하면서 이러한 이득을 얻습니다. 간단하면서도 상당한 이득을 얻는 HARP는 최소한의 계산적 영향으로 Transformer 기반 언어 모델의 성능을 향상시키는 실용적인 해결책을 제공합니다.
English
This paper aims to improve the performance of large language models by
addressing the variable computational demands in inference steps, where some
tokens require more computational resources than others. We present HARP, a
simple modification to "off-the-shelf" Transformer forward pass. Drawing from
hesitation and the framing effect in decision-making, HARP selectively applies
additional computation when the model encounters uncertainty during token
generation. Our method mimics human cognitive processes by pausing at difficult
decision points and reframing inputs for a different perspective. Unlike other
approaches, HARP is model-agnostic, training-free, and easy to implement. We
thoroughly evaluate our method across various downstream tasks and model sizes,
demonstrating performance improvements up to +5.16%. Notably, HARP achieves
these gains while maintaining inference times twice faster than beam search.
Simple and yet with significant gains, HARP offers a practical solution for
enhancing the performance of Transformer-based language models with minimal
computational impact.Summary
AI-Generated Summary