Hybride Präferenzen: Lernen, Instanzen für menschliches vs. KI-Feedback zu routen

Hybrid Preferences: Learning to Route Instances for Human vs. AI Feedback

October 24, 2024
Autoren: Lester James V. Miranda, Yizhong Wang, Yanai Elazar, Sachin Kumar, Valentina Pyatkin, Faeze Brahman, Noah A. Smith, Hannaneh Hajishirzi, Pradeep Dasigi
cs.AI

Zusammenfassung

Das Lernen aus menschlichem Feedback hat die Ausrichtung von Sprachmodellen (LMs) mit menschlichen Präferenzen ermöglicht. Direktes Sammeln menschlicher Präferenzen kann jedoch teuer, zeitaufwendig und mit hoher Varianz verbunden sein. Eine attraktive Alternative besteht darin, Präferenzen aus LMs als Quelle synthetischer Annotationen zu destillieren, da diese konsistenter, kostengünstiger und besser skalierbar sind als menschliche Annotationen; sie sind jedoch auch anfällig für Verzerrungen und Fehler. In dieser Arbeit stellen wir ein Routing-Framework vor, das Eingaben von Menschen und LMs kombiniert, um eine bessere Annotationsqualität zu erreichen und die Gesamtkosten menschlicher Annotationen zu reduzieren. Der Kern unseres Ansatzes besteht darin, Präferenzinstanzen zu identifizieren, die von menschlichen Annotationen profitieren würden. Wir formulieren dies als ein Optimierungsproblem: Angesichts eines Präferenzdatensatzes und eines Bewertungsmaßstabs trainieren wir ein Leistungsprognosemodell, um die Leistung eines Belohnungsmodells auf einer beliebigen Kombination von menschlichen und LM-Annotationen vorherzusagen, und verwenden eine Routing-Strategie, die eine Kombination auswählt, die die vorhergesagte Leistung maximiert. Wir trainieren das Leistungsprognosemodell auf MultiPref, einem neuen Präferenzdatensatz mit 10.000 Instanzen, die mit menschlichen und LM-Labels gepaart sind. Wir zeigen, dass die ausgewählte hybride Mischung aus LM- und direkten menschlichen Präferenzen mithilfe unseres Routing-Frameworks eine bessere Leistung des Belohnungsmodells erzielt im Vergleich zur ausschließlichen Verwendung von einem der beiden. Wir simulieren die selektive Sammlung menschlicher Präferenzen auf drei anderen Datensätzen und zeigen, dass unsere Methode gut auf alle drei generalisiert. Wir analysieren Merkmale des Routing-Modells, um Eigenschaften von Instanzen zu identifizieren, die von menschlichem Feedback profitieren können, z. B. Anfragen mit mäßiger Sicherheitsbedenken oder mäßiger Absichtskomplexität. Wir veröffentlichen den Datensatz, die Annotationsplattform und den Quellcode, die in dieser Studie verwendet wurden, um eine effizientere und genauere Sammlung von Präferenzen in der Zukunft zu fördern.
English
Learning from human feedback has enabled the alignment of language models (LMs) with human preferences. However, directly collecting human preferences can be expensive, time-consuming, and can have high variance. An appealing alternative is to distill preferences from LMs as a source of synthetic annotations as they are more consistent, cheaper, and scale better than human annotation; however, they are also prone to biases and errors. In this work, we introduce a routing framework that combines inputs from humans and LMs to achieve better annotation quality, while reducing the total cost of human annotation. The crux of our approach is to identify preference instances that will benefit from human annotations. We formulate this as an optimization problem: given a preference dataset and an evaluation metric, we train a performance prediction model to predict a reward model's performance on an arbitrary combination of human and LM annotations and employ a routing strategy that selects a combination that maximizes predicted performance. We train the performance prediction model on MultiPref, a new preference dataset with 10K instances paired with human and LM labels. We show that the selected hybrid mixture of LM and direct human preferences using our routing framework achieves better reward model performance compared to using either one exclusively. We simulate selective human preference collection on three other datasets and show that our method generalizes well to all three. We analyze features from the routing model to identify characteristics of instances that can benefit from human feedback, e.g., prompts with a moderate safety concern or moderate intent complexity. We release the dataset, annotation platform, and source code used in this study to foster more efficient and accurate preference collection in the future.

Summary

AI-Generated Summary

PDF112November 16, 2024