대규모 추론 모델을 활용한 경쟁 프로그래밍
Competitive Programming with Large Reasoning Models
February 3, 2025
저자: OpenAI, Ahmed El-Kishky, Alexander Wei, Andre Saraiva, Borys Minaev, Daniel Selsam, David Dohan, Francis Song, Hunter Lightman, Ignasi Clavera, Jakub Pachocki, Jerry Tworek, Lorenz Kuhn, Lukasz Kaiser, Mark Chen, Max Schwarzer, Mostafa Rohaninejad, Nat McAleese, o3 contributors, Oleg Mürk, Rhythm Garg, Rui Shu, Szymon Sidor, Vineet Kosaraju, Wenda Zhou
cs.AI
초록
우리는 대형 언어 모델 (LLM)에 적용된 강화 학습이 복잡한 코딩 및 추론 작업에서 성능을 크게 향상시킨다는 것을 보여줍니다. 또한, 우리는 두 개의 일반 목적 추론 모델 - OpenAI o1과 o3의 초기 체크포인트 -을 2024년 국제 정보 올림피아드(IOI)에서 경쟁하기 위해 설계된 손수 설계된 추론 전략을 사용하는 도메인별 시스템인 o1-ioi와 비교합니다. 우리는 o1-ioi로 IOI 2024에서 실시간으로 경쟁하였고, 손수 제작된 테스트 시간 전략을 사용하여 49번째 백분위에 위치했습니다. 제약이 완화된 경쟁 조건 하에서 o1-ioi는 금메달을 획득했습니다. 그러나 o3와 같은 나중 모델을 평가할 때, o3은 손수 제작된 도메인별 전략이나 완화된 제약 없이도 금메달을 달성합니다. 우리의 연구 결과는 o1-ioi와 같은 전문화된 파이프라인이 확고한 개선을 가져오지만, 확장된 일반 목적 o3 모델이 손수 제작된 추론 휴리스틱에 의존하지 않고 이러한 결과를 능가한다는 것을 보여줍니다. 특히, o3은 2024 IOI에서 금메달을 획득하고 엘리트 인간 경쟁자들과 동등한 Codeforces 등급을 얻습니다. 이러한 결과는 도메인별 기술에 의존하는 대신 일반 목적 강화 학습을 확장하는 것이 경쟁 프로그래밍과 같은 추론 도메인에서 최첨단 AI로 나아가는 견고한 길을 제공한다는 것을 나타냅니다.
English
We show that reinforcement learning applied to large language models (LLMs)
significantly boosts performance on complex coding and reasoning tasks.
Additionally, we compare two general-purpose reasoning models - OpenAI o1 and
an early checkpoint of o3 - with a domain-specific system, o1-ioi, which uses
hand-engineered inference strategies designed for competing in the 2024
International Olympiad in Informatics (IOI). We competed live at IOI 2024 with
o1-ioi and, using hand-crafted test-time strategies, placed in the 49th
percentile. Under relaxed competition constraints, o1-ioi achieved a gold
medal. However, when evaluating later models such as o3, we find that o3
achieves gold without hand-crafted domain-specific strategies or relaxed
constraints. Our findings show that although specialized pipelines such as
o1-ioi yield solid improvements, the scaled-up, general-purpose o3 model
surpasses those results without relying on hand-crafted inference heuristics.
Notably, o3 achieves a gold medal at the 2024 IOI and obtains a Codeforces
rating on par with elite human competitors. Overall, these results indicate
that scaling general-purpose reinforcement learning, rather than relying on
domain-specific techniques, offers a robust path toward state-of-the-art AI in
reasoning domains, such as competitive programming.Summary
AI-Generated Summary