Debatte fördert die Verallgemeinerung von schwach zu stark.
Debate Helps Weak-to-Strong Generalization
January 21, 2025
Autoren: Hao Lang, Fei Huang, Yongbin Li
cs.AI
Zusammenfassung
Gängige Methoden zur Ausrichtung bereits leistungsfähiger Modelle auf das gewünschte Verhalten beruhen auf der Fähigkeit von Menschen, Aufsicht zu leisten. Zukünftige übermenschliche Modelle werden jedoch die Fähigkeiten von Menschen übertreffen. Daher werden Menschen nur in der Lage sein, übermenschliche Modelle schwach zu beaufsichtigen. Diese erwartete Unzulänglichkeit der menschlichen Bewertung würde die Sicherheit zukünftiger KI-Systeme schwächen. Skalierbare Aufsicht und schwache-bis-starke Verallgemeinerung sind zwei ergänzende Ansätze, um dieses Problem anzugehen. In diesem Papier versuchen wir, die Stärken dieser beiden Ansätze zu kombinieren, um die Ausrichtung weiter zu verbessern. Konkret untersuchen wir Möglichkeiten zur Verbesserung der menschlichen Aufsicht mit einem starken vorab trainierten Modell und beaufsichtigen dann das starke Modell mit verbesserter schwacher menschlicher Aufsicht. Um iterative empirische Fortschritte zu erzielen, betrachten wir eine Analogie: Können wir ein starkes Modell verwenden, um die Aufsicht über ein schwaches Modell zu verbessern und es dann verwenden, um das starke Modell zu beaufsichtigen? Wir testen dies empirisch, indem wir ein kleines schwaches Modell mit Hilfe eines großen starken Modells auf Ground-Truth-Labels feinabstimmen und dann das starke Modell auf Labels feinabstimmen, die vom schwachen Modell generiert wurden. Wir stellen fest, dass eine Debatte einem schwachen Modell dabei helfen kann, vertrauenswürdige Informationen aus einem unzuverlässigen starken Modell zu extrahieren, was als Kontext auf Proben dient, wenn ein schwaches Modell trainiert wird. Wir zeigen auch, dass ein Ensemble schwacher Modelle hilft, lange Argumente zu nutzen, die von starken Modell-Debattierern generiert wurden, und eine robustere Aufsichtsschätzung zu erhalten. Umfangreiche Experimente an den OpenAI schwach-bis-starken NLP-Benchmarks zeigen, dass der kombinierte Ansatz zu einer besseren Ausrichtung führt, was darauf hindeutet, dass Debatten das Potenzial haben, bei der schwach-bis-starken Verallgemeinerung zu helfen.
English
Common methods for aligning already-capable models with desired behavior rely
on the ability of humans to provide supervision. However, future superhuman
models will surpass the capability of humans. Therefore, humans will only be
able to weakly supervise superhuman models. This expected deficiency of human
evaluation would weaken the safety of future AI systems. Scalable oversight and
weak-to-strong generalization are two complementary approaches to tackle this
issue. In this paper, we attempt to combine the strengths of these two
approaches to further improve alignment. Specifically, we investigate ways of
improving human supervision with a strong pretrained model and then supervise
the strong model with enhanced weak human supervision. To make iterative
empirical progress, we consider an analogy: can we use a strong model to
improve weak model supervision and then use it to supervise the strong model?
We empirically test it by finetuning a small weak model on ground truth labels
with the additional help from a large strong model, and then finetuning the
strong model on labels generated by the weak model. We find that debate can
assist a weak model in extracting trustworthy information from an untrustworthy
strong model, which provides leverage as context on samples when training a
weak model. We also show that an ensemble of weak models helps exploit long
arguments generated by strong model debaters and obtain a more robust
supervision estimate. Extensive experiments on the OpenAI weak-to-strong NLP
benchmarks show that the combination approach leads to better alignment, which
indicates that debate has the potential to help weak-to-strong generalization.Summary
AI-Generated Summary