ChatPaper.aiChatPaper

SFT merkt sich, RL verallgemeinert: Eine vergleichende Studie des Foundation-Modells nach dem Training.

SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training

January 28, 2025
Autoren: Tianzhe Chu, Yuexiang Zhai, Jihan Yang, Shengbang Tong, Saining Xie, Dale Schuurmans, Quoc V. Le, Sergey Levine, Yi Ma
cs.AI

Zusammenfassung

Überwachtes Feintuning (SFT) und Verstärkendes Lernen (RL) sind weit verbreitete Techniken nach dem Training für Grundlagenmodelle. Ihre Rolle bei der Verbesserung der Verallgemeinerungsfähigkeiten der Modelle ist jedoch unklar. Diese Arbeit untersucht den Unterschied zwischen SFT und RL hinsichtlich Verallgemeinerung und Memorierung, wobei textbasierte Regelvarianten und visuelle Varianten im Fokus stehen. Wir stellen GeneralPoints vor, ein Karten-Arithmetikspiel, und nutzen V-IRL, eine Navigationsumgebung in der realen Welt, um zu bewerten, wie Modelle, die mit SFT und RL trainiert wurden, auf unerforschte Varianten sowohl im textuellen als auch im visuellen Bereich verallgemeinern. Wir zeigen, dass RL, insbesondere wenn es mit einer ergebnisbasierten Belohnung trainiert wird, über Regel-basierte textuelle und visuelle Varianten hinweg verallgemeinert. SFT hingegen neigt dazu, Trainingsdaten zu memorieren und hat Schwierigkeiten, Szenarien außerhalb der Verteilung zu verallgemeinern. Eine weitere Analyse zeigt, dass RL die zugrunde liegenden visuellen Erkennungsfähigkeiten des Modells verbessert und so zu seiner verbesserten Verallgemeinerung im visuellen Bereich beiträgt. Trotz der überlegenen Verallgemeinerung von RL zeigen wir, dass SFT für ein effektives RL-Training unerlässlich bleibt; SFT stabilisiert das Ausgabeformat des Modells und ermöglicht es nachfolgendem RL, seine Leistungssteigerungen zu erzielen. Diese Erkenntnisse zeigen die Fähigkeit von RL, generalisierbares Wissen in komplexen, multimodalen Aufgaben zu erlangen.
English
Supervised fine-tuning (SFT) and reinforcement learning (RL) are widely used post-training techniques for foundation models. However, their roles in enhancing model generalization capabilities remain unclear. This paper studies the difference between SFT and RL on generalization and memorization, focusing on text-based rule variants and visual variants. We introduce GeneralPoints, an arithmetic reasoning card game, and adopt V-IRL, a real-world navigation environment, to assess how models trained with SFT and RL generalize to unseen variants in both textual and visual domains. We show that RL, especially when trained with an outcome-based reward, generalizes across both rule-based textual and visual variants. SFT, in contrast, tends to memorize training data and struggles to generalize out-of-distribution scenarios. Further analysis reveals that RL improves the model's underlying visual recognition capabilities, contributing to its enhanced generalization in the visual domain. Despite RL's superior generalization, we show that SFT remains essential for effective RL training; SFT stabilizes the model's output format, enabling subsequent RL to achieve its performance gains. These findings demonstrates the capability of RL for acquiring generalizable knowledge in complex, multi-modal tasks.

Summary

AI-Generated Summary

PDF1206January 29, 2025