Debatte helpt bij zwak-naar-sterk generalisatie.
Debate Helps Weak-to-Strong Generalization
January 21, 2025
Auteurs: Hao Lang, Fei Huang, Yongbin Li
cs.AI
Samenvatting
Gangbare methoden om reeds capabele modellen af te stemmen op gewenst gedrag vertrouwen op de mogelijkheid van mensen om toezicht te houden. Echter, toekomstige superieure modellen zullen de capaciteit van mensen overtreffen. Daarom zullen mensen alleen in staat zijn om zwak toezicht te houden op superieure modellen. Dit verwachte tekort aan menselijke evaluatie zou de veiligheid van toekomstige AI-systemen verzwakken. Schaalbare controle en zwak-naar-sterk generalisatie zijn twee complementaire benaderingen om dit probleem aan te pakken. In dit artikel proberen we de sterke punten van deze twee benaderingen te combineren om de afstemming verder te verbeteren. Specifiek onderzoeken we manieren om menselijk toezicht te verbeteren met een sterk voorgeleerd model en vervolgens toezicht te houden op het sterke model met verbeterd zwak menselijk toezicht. Om iteratieve empirische vooruitgang te boeken, overwegen we een analogie: kunnen we een sterk model gebruiken om zwak toezicht op een model te verbeteren en het vervolgens gebruiken om het sterke model te begeleiden? We testen dit empirisch door een klein zwak model af te stemmen op grondwaarheidlabels met extra hulp van een groot sterk model, en vervolgens het sterke model af te stemmen op labels gegenereerd door het zwakke model. We constateren dat debat een zwak model kan helpen bij het extraheren van betrouwbare informatie uit een onbetrouwbaar sterk model, wat als context dient bij het trainen van een zwak model. We tonen ook aan dat een ensemble van zwakke modellen helpt bij het benutten van lange argumenten gegenereerd door sterke modeldebaters en een meer robuuste toezichtsschatting oplevert. Uitgebreide experimenten op de OpenAI zwak-naar-sterk NLP-benchmarks tonen aan dat de combinatiebenadering leidt tot een betere afstemming, wat aangeeft dat debat het potentieel heeft om te helpen bij zwak-naar-sterk generalisatie.
English
Common methods for aligning already-capable models with desired behavior rely
on the ability of humans to provide supervision. However, future superhuman
models will surpass the capability of humans. Therefore, humans will only be
able to weakly supervise superhuman models. This expected deficiency of human
evaluation would weaken the safety of future AI systems. Scalable oversight and
weak-to-strong generalization are two complementary approaches to tackle this
issue. In this paper, we attempt to combine the strengths of these two
approaches to further improve alignment. Specifically, we investigate ways of
improving human supervision with a strong pretrained model and then supervise
the strong model with enhanced weak human supervision. To make iterative
empirical progress, we consider an analogy: can we use a strong model to
improve weak model supervision and then use it to supervise the strong model?
We empirically test it by finetuning a small weak model on ground truth labels
with the additional help from a large strong model, and then finetuning the
strong model on labels generated by the weak model. We find that debate can
assist a weak model in extracting trustworthy information from an untrustworthy
strong model, which provides leverage as context on samples when training a
weak model. We also show that an ensemble of weak models helps exploit long
arguments generated by strong model debaters and obtain a more robust
supervision estimate. Extensive experiments on the OpenAI weak-to-strong NLP
benchmarks show that the combination approach leads to better alignment, which
indicates that debate has the potential to help weak-to-strong generalization.Summary
AI-Generated Summary