ChatPaper.aiChatPaper

그게 당신의 최종 답변인가요? 테스트 시간 스케일링이 선택적 질문 응답을 개선합니다

Is That Your Final Answer? Test-Time Scaling Improves Selective Question Answering

February 19, 2025
저자: William Jurayj, Jeffrey Cheng, Benjamin Van Durme
cs.AI

초록

대규모 언어 모델의 테스트 시점 계산 자원 확장은 추론 벤치마크에서 인상적인 성능을 보여주고 있습니다. 그러나 기존의 테스트 시점 확장 평가는 추론 시스템이 제공된 모든 질문에 대해 항상 답변을 해야 한다는 강한 가정을 하고 있습니다. 이는 모델이 자신의 답변에 대해 얼마나 확신을 가지고 있는지, 그리고 항상 응답을 제공하는 것이 적절한지에 대한 고려를 간과하고 있습니다. 이러한 문제를 해결하기 위해, 우리는 추론 과정에서 신뢰도 점수를 추출하여 모델 응답에 대한 임계값 설정을 적용했습니다. 우리는 추론 시점에 계산 예산을 증가시키는 것이 모델이 더 많은 질문에 올바르게 답변하는 데 도움을 줄 뿐만 아니라, 올바른 응답에 대한 신뢰도를 높인다는 것을 발견했습니다. 또한, 우리는 평가 과정에서 제로 리스크 응답의 현재 패러다임을 비제로 리스크 수준의 응답 설정으로 확장하고, 이러한 설정 하에서 평가 결과를 보고하기 위한 방법론을 제안합니다.
English
Scaling the test-time compute of large language models has demonstrated impressive performance on reasoning benchmarks. However, existing evaluations of test-time scaling make the strong assumption that a reasoning system should always give an answer to any question provided. This overlooks concerns about whether a model is confident in its answer, and whether it is appropriate to always provide a response. To address these concerns, we extract confidence scores during reasoning for thresholding model responses. We find that increasing compute budget at inference time not only helps models answer more questions correctly, but also increases confidence in correct responses. We then extend the current paradigm of zero-risk responses during evaluation by considering settings with non-zero levels of response risk, and suggest a recipe for reporting evaluations under these settings.

Summary

AI-Generated Summary

PDF31February 20, 2025