Decodifica rapida Best-of-N tramite Rifiuto Speculativo
Fast Best-of-N Decoding via Speculative Rejection
October 26, 2024
Autori: Hanshi Sun, Momin Haider, Ruiqi Zhang, Huitao Yang, Jiahao Qiu, Ming Yin, Mengdi Wang, Peter Bartlett, Andrea Zanette
cs.AI
Abstract
Il sicuro ed efficace dispiegamento dei Large Language Models (LLM) coinvolge un passaggio critico chiamato allineamento, che garantisce che le risposte del modello siano in accordo con le preferenze umane. Le tecniche di allineamento prevalenti, come DPO, PPO e le loro varianti, allineano i LLM modificando i pesi del modello pre-addestrato durante una fase chiamata post-addestramento. Sebbene predominanti, questi metodi di post-addestramento aggiungono una complessità sostanziale prima che i LLM possano essere dispiegati. I metodi di allineamento al momento dell'inferenza evitano il complesso passaggio del post-addestramento e invece indirizzano la generazione verso risposte allineate alle preferenze umane. Il metodo di allineamento al momento dell'inferenza più conosciuto, chiamato Best-of-N, è efficace quanto le procedure di post-addestramento all'avanguardia. Purtroppo, Best-of-N richiede notevolmente più risorse al momento dell'inferenza rispetto alle strategie standard di decodifica, rendendolo computazionalmente non praticabile. In questo lavoro, presentiamo il Reiezione Speculativa, un algoritmo di allineamento al momento dell'inferenza computazionalmente praticabile. Genera risposte ad alto punteggio secondo un modello di ricompensa dato, come fa Best-of-N, essendo tra 16 e 32 volte più efficiente dal punto di vista computazionale.
English
The safe and effective deployment of Large Language Models (LLMs) involves a
critical step called alignment, which ensures that the model's responses are in
accordance with human preferences. Prevalent alignment techniques, such as DPO,
PPO and their variants, align LLMs by changing the pre-trained model weights
during a phase called post-training. While predominant, these post-training
methods add substantial complexity before LLMs can be deployed. Inference-time
alignment methods avoid the complex post-training step and instead bias the
generation towards responses that are aligned with human preferences. The
best-known inference-time alignment method, called Best-of-N, is as effective
as the state-of-the-art post-training procedures. Unfortunately, Best-of-N
requires vastly more resources at inference time than standard decoding
strategies, which makes it computationally not viable. In this work, we
introduce Speculative Rejection, a computationally-viable inference-time
alignment algorithm. It generates high-scoring responses according to a given
reward model, like Best-of-N does, while being between 16 to 32 times more
computationally efficient.Summary
AI-Generated Summary