CoT-밸브: 길이 압축 가능한 사고 연쇄 조정
CoT-Valve: Length-Compressible Chain-of-Thought Tuning
February 13, 2025
저자: Xinyin Ma, Guangnian Wan, Runpeng Yu, Gongfan Fang, Xinchao Wang
cs.AI
초록
Chain-of-Thought은 모델의 추론 능력을 크게 향상시키지만, 긴 체인으로 인한 추론 비용 증가도 동반됩니다. 추론 경로가 쉬운 작업에서는 쉽게 압축될 수 있지만 어려운 작업에서는 어려움을 겪는 것을 관찰하여, 한 모델로 추론 경로의 길이를 탄력적으로 제어하는 가능성을 탐구하고, 작업 난이도에 기반하여 추론 모델의 추론 오버헤드를 동적으로 줄이기 위한 새로운 조정 및 추론 전략인 CoT-Valve를 소개합니다. 이를 달성하기 위해, 생성된 CoT의 길이를 효과적으로 제어할 수 있는 파라미터 공간에서 조작할 수 있는 방향을 식별하는 것을 제안합니다. 또한, 이 속성이 추론 체인을 압축하는 데 유용하다는 것을 보여줍니다. 동일한 질문에 대해 긴 체인부터 짧은 체인까지의 데이터셋을 구축하고 CoT-Valve에 대한 두 가지 향상된 전략을 탐구합니다: (1) 정확한 길이 압축 가능한 CoT 조정 방법 및 (2) 점진적인 체인 길이 압축 접근 방식. 실험 결과, CoT-Valve가 체인의 가용성과 압축성을 성공적으로 제어하며 프롬프트 기반 제어보다 더 나은 성능을 보여줍니다. 이 방법을 QwQ-32B-Preview에 적용하여, GSM8K에서 추론 체인을 741에서 225 토큰으로 줄이고(성능 하락은 95.07%에서 94.92%로 미미함), AIME에서는 6827에서 4629 토큰으로 줄여 오직 한 가지 오답만 추가했습니다.
English
Chain-of-Thought significantly enhances a model's reasoning capability, but
it also comes with a considerable increase in inference costs due to long
chains. With the observation that the reasoning path can be easily compressed
under easy tasks but struggle on hard tasks, we explore the feasibility of
elastically controlling the length of reasoning paths with only one model,
thereby reducing the inference overhead of reasoning models dynamically based
on task difficulty. We introduce a new tuning and inference strategy named
CoT-Valve, designed to allow models to generate reasoning chains of varying
lengths. To achieve this, we propose to identify a direction in the parameter
space that, when manipulated, can effectively control the length of generated
CoT. Moreover, we show that this property is valuable for compressing the
reasoning chain. We construct datasets with chains from long to short for the
same questions and explore two enhanced strategies for CoT-Valve: (1) a precise
length-compressible CoT tuning method, and (2) a progressive chain length
compression approach. Our experiments show that CoT-Valve successfully enables
controllability and compressibility of the chain and shows better performance
than the prompt-based control. We applied this method to QwQ-32B-Preview,
reducing reasoning chains on GSM8K from 741 to 225 tokens with a minor
performance drop (95.07% to 94.92%) and on AIME from 6827 to 4629 tokens, with
only one additional incorrect answer.Summary
AI-Generated Summary