Hybride Präferenzen: Lernen, Instanzen für menschliches vs. KI-Feedback zu routen
Hybrid Preferences: Learning to Route Instances for Human vs. AI Feedback
October 24, 2024
Autoren: Lester James V. Miranda, Yizhong Wang, Yanai Elazar, Sachin Kumar, Valentina Pyatkin, Faeze Brahman, Noah A. Smith, Hannaneh Hajishirzi, Pradeep Dasigi
cs.AI
Zusammenfassung
Das Lernen aus menschlichem Feedback hat die Ausrichtung von Sprachmodellen (LMs) mit menschlichen Präferenzen ermöglicht. Direktes Sammeln menschlicher Präferenzen kann jedoch teuer, zeitaufwendig und mit hoher Varianz verbunden sein. Eine attraktive Alternative besteht darin, Präferenzen aus LMs als Quelle synthetischer Annotationen zu destillieren, da diese konsistenter, kostengünstiger und besser skalierbar sind als menschliche Annotationen; sie sind jedoch auch anfällig für Verzerrungen und Fehler. In dieser Arbeit stellen wir ein Routing-Framework vor, das Eingaben von Menschen und LMs kombiniert, um eine bessere Annotationsqualität zu erreichen und die Gesamtkosten menschlicher Annotationen zu reduzieren. Der Kern unseres Ansatzes besteht darin, Präferenzinstanzen zu identifizieren, die von menschlichen Annotationen profitieren würden. Wir formulieren dies als ein Optimierungsproblem: Angesichts eines Präferenzdatensatzes und eines Bewertungsmaßstabs trainieren wir ein Leistungsprognosemodell, um die Leistung eines Belohnungsmodells auf einer beliebigen Kombination von menschlichen und LM-Annotationen vorherzusagen, und verwenden eine Routing-Strategie, die eine Kombination auswählt, die die vorhergesagte Leistung maximiert. Wir trainieren das Leistungsprognosemodell auf MultiPref, einem neuen Präferenzdatensatz mit 10.000 Instanzen, die mit menschlichen und LM-Labels gepaart sind. Wir zeigen, dass die ausgewählte hybride Mischung aus LM- und direkten menschlichen Präferenzen mithilfe unseres Routing-Frameworks eine bessere Leistung des Belohnungsmodells erzielt im Vergleich zur ausschließlichen Verwendung von einem der beiden. Wir simulieren die selektive Sammlung menschlicher Präferenzen auf drei anderen Datensätzen und zeigen, dass unsere Methode gut auf alle drei generalisiert. Wir analysieren Merkmale des Routing-Modells, um Eigenschaften von Instanzen zu identifizieren, die von menschlichem Feedback profitieren können, z. B. Anfragen mit mäßiger Sicherheitsbedenken oder mäßiger Absichtskomplexität. Wir veröffentlichen den Datensatz, die Annotationsplattform und den Quellcode, die in dieser Studie verwendet wurden, um eine effizientere und genauere Sammlung von Präferenzen in der Zukunft zu fördern.
English
Learning from human feedback has enabled the alignment of language models
(LMs) with human preferences. However, directly collecting human preferences
can be expensive, time-consuming, and can have high variance. An appealing
alternative is to distill preferences from LMs as a source of synthetic
annotations as they are more consistent, cheaper, and scale better than human
annotation; however, they are also prone to biases and errors. In this work, we
introduce a routing framework that combines inputs from humans and LMs to
achieve better annotation quality, while reducing the total cost of human
annotation. The crux of our approach is to identify preference instances that
will benefit from human annotations. We formulate this as an optimization
problem: given a preference dataset and an evaluation metric, we train a
performance prediction model to predict a reward model's performance on an
arbitrary combination of human and LM annotations and employ a routing strategy
that selects a combination that maximizes predicted performance. We train the
performance prediction model on MultiPref, a new preference dataset with 10K
instances paired with human and LM labels. We show that the selected hybrid
mixture of LM and direct human preferences using our routing framework achieves
better reward model performance compared to using either one exclusively. We
simulate selective human preference collection on three other datasets and show
that our method generalizes well to all three. We analyze features from the
routing model to identify characteristics of instances that can benefit from
human feedback, e.g., prompts with a moderate safety concern or moderate intent
complexity. We release the dataset, annotation platform, and source code used
in this study to foster more efficient and accurate preference collection in
the future.Summary
AI-Generated Summary