S*: 코드 생성을 위한 테스트 시간 스케일링
S*: Test Time Scaling for Code Generation
February 20, 2025
저자: Dacheng Li, Shiyi Cao, Chengkun Cao, Xiuyu Li, Shangyin Tan, Kurt Keutzer, Jiarong Xing, Joseph E. Gonzalez, Ion Stoica
cs.AI
초록
LLM(대형 언어 모델)의 테스트 시간 계산량 증가는 다양한 영역에서 유망한 결과를 보여주고 있지만, 수학 분야에서의 광범위한 연구와 달리 코드 생성 분야에서는 아직 충분히 탐구되지 않고 있습니다. 본 논문에서는 생성된 코드의 커버리지와 선택 정확도를 크게 향상시키는 최초의 하이브리드 테스트 시간 스케일링 프레임워크인 S*를 제안합니다. S*는 기존의 병렬 스케일링 패러다임을 순차적 스케일링으로 확장하여 성능 한계를 더욱 끌어올립니다. 또한, 적응적으로 구별 입력을 생성하여 쌍별 비교를 수행하는 새로운 선택 메커니즘과 실행 기반 정보를 결합하여 정확한 솔루션을 강력하게 식별합니다. 우리는 12개의 대형 언어 모델과 대형 추론 모델을 대상으로 평가를 진행했으며, 다음과 같은 결과를 확인했습니다: (1) S*는 모델 계열과 크기에 관계없이 일관되게 성능을 향상시켜, 3B 모델이 GPT-4o-mini를 능가할 수 있도록 합니다; (2) S*는 비추론 모델이 추론 모델을 능가할 수 있게 합니다 - S*를 적용한 GPT-4o-mini는 LiveCodeBench에서 o1-preview를 3.7% 앞섭니다; (3) S*는 최첨단 추론 모델의 성능을 더욱 끌어올립니다 - S*를 적용한 DeepSeek-R1-Distill-Qwen-32B는 LiveCodeBench에서 85.7%를 달성하며, 88.5%인 o1(high)에 근접합니다. 코드는 https://github.com/NovaSky-AI/SkyThought에서 제공될 예정입니다.
English
Increasing test-time compute for LLMs shows promise across domains but
remains underexplored in code generation, despite extensive study in math. In
this paper, we propose S*, the first hybrid test-time scaling framework that
substantially improves the coverage and selection accuracy of generated code.
S* extends the existing parallel scaling paradigm with sequential scaling to
push performance boundaries. It further leverages a novel selection mechanism
that adaptively generates distinguishing inputs for pairwise comparison,
combined with execution-grounded information to robustly identify correct
solutions. We evaluate across 12 Large Language Models and Large Reasoning
Model and show: (1) S* consistently improves performance across model families
and sizes, enabling a 3B model to outperform GPT-4o-mini; (2) S* enables
non-reasoning models to surpass reasoning models - GPT-4o-mini with S*
outperforms o1-preview by 3.7% on LiveCodeBench; (3) S* further boosts
state-of-the-art reasoning models - DeepSeek-R1-Distill-Qwen-32B with S*
achieves 85.7% on LiveCodeBench, approaching o1 (high) at 88.5%. Code will be
available under https://github.com/NovaSky-AI/SkyThought.Summary
AI-Generated Summary