Optimalisatie van Voorkeur tijdens Testtijd: On-the-Fly Afstemming via Iteratieve Tekstuele Feedback

Test-Time Preference Optimization: On-the-Fly Alignment via Iterative Textual Feedback

January 22, 2025
Auteurs: Yafu Li, Xuyang Hu, Xiaoye Qu, Linjie Li, Yu Cheng
cs.AI

Samenvatting

Grote taalmodellen (LLM's) tonen indrukwekkende prestaties, maar missen de flexibiliteit om zich snel aan te passen aan menselijke voorkeuren zonder opnieuw te worden getraind. In dit werk introduceren we Test-time Voorkeursoptimalisatie (TPO), een raamwerk dat LLM-uitvoer afstemt op menselijke voorkeuren tijdens inferentie, waardoor de noodzaak om modelparameters bij te werken wordt verwijderd. In plaats van uitsluitend te vertrouwen op numerieke beloningen, vertaalt TPO beloningssignalen naar tekstuele kritieken en gebruikt deze als tekstuele beloningen om zijn reactie iteratief te verfijnen. Evaluaties op benchmarks die instructieopvolging, voorkeursafstemming, veiligheid en wiskunde omvatten, tonen aan dat TPO geleidelijk de afstemming met menselijke voorkeuren verbetert. Opmerkelijk is dat na slechts een paar TPO-stappen het aanvankelijk niet-uitgelijnde Llama-3.1-70B-SFT-model het uitgelijnde tegenmodel, Llama-3.1-70B-Instruct, kan overtreffen. Bovendien schaalt TPO efficiënt met zowel de zoekbreedte als de diepte tijdens inferentie. Via casestudies illustreren we hoe TPO de aangeboren capaciteit van LLM benut om beloningssignalen te interpreteren en erop te reageren. Onze bevindingen vestigen TPO als een praktisch, lichtgewicht alternatief voor testtijd voorkeursoptimalisatie, waarbij uitlijning on-the-fly wordt bereikt. Onze code is openbaar beschikbaar op https://github.com/yafuly/TPO.
English
Large language models (LLMs) demonstrate impressive performance but lack the flexibility to adapt to human preferences quickly without retraining. In this work, we introduce Test-time Preference Optimization (TPO), a framework that aligns LLM outputs with human preferences during inference, removing the need to update model parameters. Rather than relying on purely numerical rewards, TPO translates reward signals into textual critiques and uses them as textual rewards to iteratively refine its response. Evaluations on benchmarks covering instruction following, preference alignment, safety, and mathematics reveal that TPO progressively improves alignment with human preferences. Notably, after only a few TPO steps, the initially unaligned Llama-3.1-70B-SFT model can surpass the aligned counterpart, Llama-3.1-70B-Instruct. Furthermore, TPO scales efficiently with both the search width and depth during inference. Through case studies, we illustrate how TPO exploits the innate capacity of LLM to interpret and act upon reward signals. Our findings establish TPO as a practical, lightweight alternative for test-time preference optimization, achieving alignment on the fly. Our code is publicly available at https://github.com/yafuly/TPO.

Summary

AI-Generated Summary

PDF512January 23, 2025