간단한 테스트 시간 스케일링
s1: Simple test-time scaling
January 31, 2025
저자: Niklas Muennighoff, Zitong Yang, Weijia Shi, Xiang Lisa Li, Li Fei-Fei, Hannaneh Hajishirzi, Luke Zettlemoyer, Percy Liang, Emmanuel Candès, Tatsunori Hashimoto
cs.AI
초록
테스트 시간 스케일링은 성능을 향상시키기 위해 추가 테스트 시간 컴퓨팅을 사용하는 언어 모델링에 대한 유망한 새로운 접근 방식입니다. 최근 OpenAI의 o1 모델은 이 능력을 보여주었지만 방법론을 공개하지 않아 많은 복제 노력이 이루어졌습니다. 우리는 테스트 시간 스케일링과 강력한 추론 성능을 달성하기 위한 가장 간단한 접근 방식을 찾고 있습니다. 먼저, 우리는 난이도, 다양성 및 품질을 의존하는 추론 트레이스와 함께 1,000개의 질문으로 구성된 작은 데이터셋 s1K를 선별합니다. 두 번째로, 모델이 종료하려고 할 때 "기다리기"를 여러 번 추가하여 모델의 생성을 연장하거나 강제로 종료시켜 테스트 시간 컴퓨팅을 제어하기 위한 예산 강제 기법을 개발합니다. 이는 모델이 답변을 다시 확인하도록 유도하여 종종 잘못된 추론 단계를 수정할 수 있습니다. s1K에서 Qwen2.5-32B-Instruct 언어 모델을 지도 미세 조정한 후 예산 강제 기법을 적용하면, 우리의 모델 s1은 경쟁 수학 문제에서 o1-preview보다 최대 27% (MATH 및 AIME24)까지 우수한 성과를 보입니다. 더불어, 예산 강제 기법을 사용하여 s1을 확장하면 테스트 시간 개입 없이 성능을 예측할 수 있습니다: AIME24에서 50%에서 57%까지. 우리의 모델, 데이터 및 코드는 https://github.com/simplescaling/s1에서 오픈 소스로 제공됩니다.
English
Test-time scaling is a promising new approach to language modeling that uses
extra test-time compute to improve performance. Recently, OpenAI's o1 model
showed this capability but did not publicly share its methodology, leading to
many replication efforts. We seek the simplest approach to achieve test-time
scaling and strong reasoning performance. First, we curate a small dataset s1K
of 1,000 questions paired with reasoning traces relying on three criteria we
validate through ablations: difficulty, diversity, and quality. Second, we
develop budget forcing to control test-time compute by forcefully terminating
the model's thinking process or lengthening it by appending "Wait" multiple
times to the model's generation when it tries to end. This can lead the model
to double-check its answer, often fixing incorrect reasoning steps. After
supervised finetuning the Qwen2.5-32B-Instruct language model on s1K and
equipping it with budget forcing, our model s1 exceeds o1-preview on
competition math questions by up to 27% (MATH and AIME24). Further, scaling s1
with budget forcing allows extrapolating beyond its performance without
test-time intervention: from 50% to 57% on AIME24. Our model, data, and code
are open-source at https://github.com/simplescaling/s1.Summary
AI-Generated Summary