ChatPaper.aiChatPaper

o1 유사 모델의 테스트 시간 스케일링 재고찰: 이들은 정말로 테스트 시간 스케일링 능력을 갖추고 있는가?

Revisiting the Test-Time Scaling of o1-like Models: Do they Truly Possess Test-Time Scaling Capabilities?

February 17, 2025
저자: Zhiyuan Zeng, Qinyuan Cheng, Zhangyue Yin, Yunhua Zhou, Xipeng Qiu
cs.AI

초록

대규모 언어 모델(LLM)에서의 테스트 시점 스케일링(test-time scaling)의 등장, 특히 OpenAI의 o1 시리즈가 대표적인 예로, 추론 과정에서의 계산 자원 할당을 스케일링함으로써 추론 능력을 향상시켰다. QwQ, Deepseek-R1(R1), LIMO와 같은 후속 모델들이 이러한 발전을 재현하고 있지만, 이러한 모델들이 실제로 테스트 시점 스케일링 능력을 갖추고 있는지는 아직 충분히 탐구되지 않았다. 본 연구에서는 이러한 o1 유사 모델들의 긴 사고 연쇄(CoT)가 항상 정확도를 향상시키지는 않는다는 것을 발견했으며, 오히려 동일한 질문에 대해 정답이 오답보다 더 짧은 경우가 많다는 점을 확인했다. 추가 조사를 통해 이 현상이 모델의 자가 수정(self-revision) 능력과 밀접하게 관련되어 있음을 알 수 있었는데, 긴 CoT에는 더 많은 자가 수정이 포함되어 있으며, 이는 종종 성능 저하로 이어졌다. 이어서 QwQ, R1, LIMO에 대해 순차적 스케일링과 병렬 스케일링 전략을 비교한 결과, 병렬 스케일링이 더 나은 커버리지와 확장성을 달성함을 발견했다. 이러한 통찰을 바탕으로, 우리는 병렬 스케일링 전략과 CoT 길이 특성을 결합한 '최단 다수결(Shortest Majority Vote)' 방법을 제안했다. 이 방법은 기존의 다수결 방식에 비해 모델의 테스트 시점 스케일링 능력을 크게 개선시켰다.
English
The advent of test-time scaling in large language models (LLMs), exemplified by OpenAI's o1 series, has advanced reasoning capabilities by scaling computational resource allocation during inference. While successors like QwQ, Deepseek-R1 (R1) and LIMO replicate these advancements, whether these models truly possess test-time scaling capabilities remains underexplored. This study found that longer CoTs of these o1-like models do not consistently enhance accuracy; in fact, correct solutions are often shorter than incorrect ones for the same questions. Further investigation shows this phenomenon is closely related to models' self-revision capabilities - longer CoTs contain more self-revisions, which often lead to performance degradation. We then compare sequential and parallel scaling strategies on QwQ, R1 and LIMO, finding that parallel scaling achieves better coverage and scalability. Based on these insights, we propose Shortest Majority Vote, a method that combines parallel scaling strategies with CoT length characteristics, significantly improving models' test-time scalability compared to conventional majority voting approaches.

Summary

AI-Generated Summary

PDF122February 19, 2025