SFT Onthoudt, RL Generaliseert: Een Vergelijkende Studie van Foundation Model Post-training

SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training

January 28, 2025
Auteurs: Tianzhe Chu, Yuexiang Zhai, Jihan Yang, Shengbang Tong, Saining Xie, Dale Schuurmans, Quoc V. Le, Sergey Levine, Yi Ma
cs.AI

Samenvatting

Supervised fine-tuning (SFT) en reinforcement learning (RL) zijn veelgebruikte post-trainingstechnieken voor foundation-modellen. De rol die ze spelen bij het verbeteren van de generalisatiecapaciteiten van modellen blijft echter onduidelijk. Dit artikel onderzoekt het verschil tussen SFT en RL op het gebied van generalisatie en memorisatie, met de focus op tekstuele regelvarianten en visuele varianten. We introduceren GeneralPoints, een kaartspel voor rekenkundige redenering, en maken gebruik van V-IRL, een navigatieomgeving in de echte wereld, om te beoordelen hoe modellen die zijn getraind met SFT en RL generaliseren naar ongeziene varianten in zowel tekstuele als visuele domeinen. We tonen aan dat RL, vooral wanneer getraind met een op uitkomsten gebaseerde beloning, generaliseert over zowel op regels gebaseerde tekstuele als visuele varianten. SFT daarentegen heeft de neiging om trainingsgegevens te memoriseren en worstelt met generalisatie naar out-of-distribution scenario's. Verder onderzoek onthult dat RL de onderliggende visuele herkenningscapaciteiten van het model verbetert, wat bijdraagt aan de verbeterde generalisatie in het visuele domein. Ondanks de superieure generalisatie van RL tonen we aan dat SFT essentieel blijft voor effectieve RL-training; SFT stabiliseert het uitvoerformaat van het model, waardoor daaropvolgende RL zijn prestatiewinst kan behalen. Deze bevindingen tonen de mogelijkheden van RL aan om generaliseerbare kennis te verwerven in complexe, multimodale taken.
English
Supervised fine-tuning (SFT) and reinforcement learning (RL) are widely used post-training techniques for foundation models. However, their roles in enhancing model generalization capabilities remain unclear. This paper studies the difference between SFT and RL on generalization and memorization, focusing on text-based rule variants and visual variants. We introduce GeneralPoints, an arithmetic reasoning card game, and adopt V-IRL, a real-world navigation environment, to assess how models trained with SFT and RL generalize to unseen variants in both textual and visual domains. We show that RL, especially when trained with an outcome-based reward, generalizes across both rule-based textual and visual variants. SFT, in contrast, tends to memorize training data and struggles to generalize out-of-distribution scenarios. Further analysis reveals that RL improves the model's underlying visual recognition capabilities, contributing to its enhanced generalization in the visual domain. Despite RL's superior generalization, we show that SFT remains essential for effective RL training; SFT stabilizes the model's output format, enabling subsequent RL to achieve its performance gains. These findings demonstrates the capability of RL for acquiring generalizable knowledge in complex, multi-modal tasks.

Summary

AI-Generated Summary

PDF423January 29, 2025