Decodifica rapida Best-of-N tramite Rifiuto Speculativo

Abstract

Il sicuro ed efficace dispiegamento dei Large Language Models (LLM) coinvolge un passaggio critico chiamato allineamento, che garantisce che le risposte del modello siano in accordo con le preferenze umane. Le tecniche di allineamento prevalenti, come DPO, PPO e le loro varianti, allineano i LLM modificando i pesi del modello pre-addestrato durante una fase chiamata post-addestramento. Sebbene predominanti, questi metodi di post-addestramento aggiungono una complessità sostanziale prima che i LLM possano essere dispiegati. I metodi di allineamento al momento dell'inferenza evitano il complesso passaggio del post-addestramento e invece indirizzano la generazione verso risposte allineate alle preferenze umane. Il metodo di allineamento al momento dell'inferenza più conosciuto, chiamato Best-of-N, è efficace quanto le procedure di post-addestramento all'avanguardia. Purtroppo, Best-of-N richiede notevolmente più risorse al momento dell'inferenza rispetto alle strategie standard di decodifica, rendendolo computazionalmente non praticabile. In questo lavoro, presentiamo il Reiezione Speculativa, un algoritmo di allineamento al momento dell'inferenza computazionalmente praticabile. Genera risposte ad alto punteggio secondo un modello di ricompensa dato, come fa Best-of-N, essendo tra 16 e 32 volte più efficiente dal punto di vista computazionale.

English

The safe and effective deployment of Large Language Models (LLMs) involves a critical step called alignment, which ensures that the model's responses are in accordance with human preferences. Prevalent alignment techniques, such as DPO, PPO and their variants, align LLMs by changing the pre-trained model weights during a phase called post-training. While predominant, these post-training methods add substantial complexity before LLMs can be deployed. Inference-time alignment methods avoid the complex post-training step and instead bias the generation towards responses that are aligned with human preferences. The best-known inference-time alignment method, called Best-of-N, is as effective as the state-of-the-art post-training procedures. Unfortunately, Best-of-N requires vastly more resources at inference time than standard decoding strategies, which makes it computationally not viable. In this work, we introduce Speculative Rejection, a computationally-viable inference-time alignment algorithm. It generates high-scoring responses according to a given reward model, like Best-of-N does, while being between 16 to 32 times more computationally efficient.

Decodifica rapida Best-of-N tramite Rifiuto Speculativo

Fast Best-of-N Decoding via Speculative Rejection

Abstract

Summary

Support