Échantillonner, Examiner et Mettre à l'échelle : Recherche efficace à l'inférence en mettant à l'échelle la Vérification

Sample, Scrutinize and Scale: Effective Inference-Time Search by Scaling Verification

February 3, 2025
Auteurs: Eric Zhao, Pranjal Awasthi, Sreenivas Gollapudi
cs.AI

Résumé

La recherche basée sur l'échantillonnage, un paradigme simple pour utiliser la puissance de calcul au moment du test, implique de générer plusieurs réponses candidates et de sélectionner la meilleure - généralement en vérifiant chaque réponse pour sa justesse. Dans cet article, nous étudions les tendances d'évolution qui régissent la recherche basée sur l'échantillonnage. Parmi nos découvertes, il ressort que simplement augmenter une implémentation minimaliste qui utilise uniquement l'échantillonnage aléatoire et la vérification directe de soi-même entraîne des améliorations de performances durables qui, par exemple, élèvent les capacités de raisonnement du modèle Gemini v1.5 Pro au-delà de celles de o1-Preview sur des bancs d'essai populaires. Nous attribuons en partie la scalabilité de la recherche basée sur l'échantillonnage à un phénomène de scalabilité implicite, où l'échantillonnage d'un plus grand nombre de réponses améliore à son tour la précision de la vérification. Nous identifions en outre deux principes utiles pour améliorer les capacités d'auto-vérification avec la puissance de calcul au moment du test : (1) comparer les réponses fournit des signaux utiles sur les emplacements des erreurs et des hallucinations, et (2) différents styles de sortie du modèle sont utiles pour différents contextes - les chaînes de pensées sont utiles pour le raisonnement mais plus difficiles à vérifier. Nous constatons également que, bien que la vérification précise puisse être obtenue, les modèles de pointe présentent des capacités de vérification hors de la boîte remarquablement faibles et introduisent un banc d'essai pour mesurer les progrès sur ces lacunes.
English
Sampling-based search, a simple paradigm for utilizing test-time compute, involves generating multiple candidate responses and selecting the best one -- typically by verifying each response for correctness. In this paper, we study the scaling trends governing sampling-based search. Among our findings is that simply scaling up a minimalist implementation that uses only random sampling and direct self-verification results in sustained performance improvements that, for example, elevate the Gemini v1.5 Pro model's reasoning capabilities past that of o1-Preview on popular benchmarks. We partially attribute the scalability of sampling-based search to a phenomenon of implicit scaling, where sampling a larger pool of responses in turn improves verification accuracy. We further identify two useful principles for improving self-verification capabilities with test-time compute: (1) comparing across responses provides helpful signals about the locations of errors and hallucinations, and (2) different model output styles are useful for different contexts -- chains of thought are useful for reasoning but harder to verify. We also find that, though accurate verification can be elicited, frontier models demonstrate remarkably weak out-of-box verification capabilities and introduce a benchmark to measure progress on these deficiencies.

Summary

AI-Generated Summary

PDF82February 5, 2025