ChatPaper.aiChatPaper

토론은 약한 강한 일반화를 돕습니다.

Debate Helps Weak-to-Strong Generalization

January 21, 2025
저자: Hao Lang, Fei Huang, Yongbin Li
cs.AI

초록

이미 능숙한 모델을 원하는 동작과 일치시키는 일반적인 방법은 인간이 감독을 제공할 수 있는 능력에 의존합니다. 그러나 미래의 초인공지능 모델은 인간의 능력을 능가할 것입니다. 따라서 인간은 초인공지능 모델을 약하게만 감독할 수 있을 것입니다. 이러한 예상된 인간 평가의 결핍은 미래 AI 시스템의 안전성을 약화시킬 것으로 예상됩니다. 확장 가능한 감독 및 약한-강한 일반화는 이 문제에 대처하기 위한 두 가지 보완적인 접근 방식입니다. 본 논문에서는 이 두 접근 방식의 강점을 결합하여 일치를 더욱 개선하려고 시도합니다. 구체적으로, 강력한 사전 학습 모델을 사용하여 인간 감독을 개선하는 방법과 그런 강력한 모델을 향상된 약한 인간 감독으로 감독하는 방법을 조사합니다. 반복적인 경험적 진전을 이루기 위해 다음과 같은 유추를 고려합니다: 강력한 모델을 사용하여 약한 모델 감독을 개선하고 그것을 사용하여 강력한 모델을 감독할 수 있을까? 우리는 작은 약한 모델을 참가자가 생성한 라벨과 함께 추가적인 큰 강력한 모델의 도움으로 세밀하게 조정하고, 그런 다음 강력한 모델을 약한 모델이 생성한 라벨로 세밀하게 조정함으로써 이를 경험적으로 테스트합니다. 우리는 논쟁이 약한 모델이 신뢰할 수 있는 정보를 신뢰할 수 없는 강력한 모델로부터 추출하는 데 도움이 되어, 약한 모델을 훈련할 때 샘플에 대한 맥락으로서 지레를 제공한다는 것을 발견했습니다. 또한 약한 모델의 앙상블이 강력한 모델 참가자가 생성한 긴 논쟁을 활용하고 더 견고한 감독 추정치를 얻는 데 도움이 된다는 것을 보여줍니다. OpenAI의 약한-강한 NLP 벤치마크에서의 광범위한 실험 결과는 이러한 결합 접근 방식이 더 나은 일치로 이어진다는 것을 보여주며, 논쟁이 약한-강한 일반화에 도움이 될 수 있는 잠재력을 시사합니다.
English
Common methods for aligning already-capable models with desired behavior rely on the ability of humans to provide supervision. However, future superhuman models will surpass the capability of humans. Therefore, humans will only be able to weakly supervise superhuman models. This expected deficiency of human evaluation would weaken the safety of future AI systems. Scalable oversight and weak-to-strong generalization are two complementary approaches to tackle this issue. In this paper, we attempt to combine the strengths of these two approaches to further improve alignment. Specifically, we investigate ways of improving human supervision with a strong pretrained model and then supervise the strong model with enhanced weak human supervision. To make iterative empirical progress, we consider an analogy: can we use a strong model to improve weak model supervision and then use it to supervise the strong model? We empirically test it by finetuning a small weak model on ground truth labels with the additional help from a large strong model, and then finetuning the strong model on labels generated by the weak model. We find that debate can assist a weak model in extracting trustworthy information from an untrustworthy strong model, which provides leverage as context on samples when training a weak model. We also show that an ensemble of weak models helps exploit long arguments generated by strong model debaters and obtain a more robust supervision estimate. Extensive experiments on the OpenAI weak-to-strong NLP benchmarks show that the combination approach leads to better alignment, which indicates that debate has the potential to help weak-to-strong generalization.

Summary

AI-Generated Summary

PDF72January 24, 2025