CLS-RL: Bildklassifizierung mit regelbasiertem Reinforcement Learning
CLS-RL: Image Classification with Rule-Based Reinforcement Learning
March 20, 2025
Autoren: Ming Li, Shitian Zhao, Jike Zhong, Yuxiang Lai, Kaipeng Zhang
cs.AI
Zusammenfassung
Klassifikation ist eine Kernaufgabe im maschinellen Lernen. Aktuelle Forschungen haben gezeigt, dass Multimodale Große Sprachmodelle (MLLMs) zwar zunächst schlecht in der Bildklassifikation sind, ihre Leistung jedoch durch Feinabstimmung mit einer ausreichenden Datenmenge erheblich verbessert werden kann, sodass sie mit den besten (SOTA) Klassifikationsmodellen vergleichbar werden. Die Beschaffung groß angelegter, gelabelter Daten ist jedoch kostspielig. In diesem Artikel untersuchen wir die Feinabstimmung von MLLMs für Few-Shot-Klassifikation. Wir fanden heraus, dass Supervised Fine-Tuning (SFT) zu schwerwiegenden Überanpassungsproblemen führen und die Leistung im Vergleich zum Zero-Shot-Ansatz sogar verschlechtern kann. Um diese Herausforderung zu bewältigen, schlagen wir, inspiriert von den jüngsten Erfolgen im regelbasierten Reinforcement Learning, CLS-RL vor, das überprüfbare Signale als Belohnung zur Feinabstimmung von MLLMs verwendet. Wir entdeckten, dass CLS-RL in den meisten Datensätzen besser abschneidet als SFT und eine deutlich höhere durchschnittliche Genauigkeit sowohl im Base-to-New- als auch im Few-Shot-Lernsetting aufweist. Darüber hinaus beobachteten wir ein Free-Lunch-Phänomen bei CLS-RL; wenn Modelle auf einem bestimmten Datensatz feinabgestimmt werden, kann sich ihre Leistung auf anderen, unterschiedlichen Datensätzen ebenfalls im Vergleich zu Zero-Shot-Modellen verbessern, selbst wenn diese Datensätze in Verteilung und Klassennamen abweichen. Dies deutet darauf hin, dass RL-basierte Methoden den Modellen effektiv die Grundlagen der Klassifikation vermitteln. Schließlich untersuchen wir, inspiriert von aktuellen Arbeiten zum Denkprozess während der Inferenz, den „Denkprozess“ während der Feinabstimmung, einen kritischen Aspekt von RL-basierten Methoden, im Kontext der visuellen Klassifikation neu. Wir stellen die Frage, ob solche Aufgaben einen umfangreichen Denkprozess während der Feinabstimmung erfordern, und schlagen vor, dass dies die Leistung tatsächlich beeinträchtigen könnte. Basierend auf dieser Prämisse führen wir die No-Thinking-CLS-RL-Methode ein, die Denkprozesse während des Trainings minimiert, indem sie eine Gleichheitsgenauigkeitsbelohnung festlegt. Unsere Ergebnisse zeigen, dass die No-Thinking-CLS-RL-Methode mit deutlich weniger Feinabstimmungszeit eine überlegene In-Domain-Leistung und Generalisierungsfähigkeiten im Vergleich zu CLS-RL erreicht.
English
Classification is a core task in machine learning. Recent research has shown
that although Multimodal Large Language Models (MLLMs) are initially poor at
image classification, fine-tuning them with an adequate amount of data can
significantly enhance their performance, making them comparable to SOTA
classification models. However, acquiring large-scale labeled data is
expensive. In this paper, we explore few-shot MLLM classification fine-tuning.
We found that SFT can cause severe overfitting issues and may even degrade
performance over the zero-shot approach. To address this challenge, inspired by
the recent successes in rule-based reinforcement learning, we propose CLS-RL,
which uses verifiable signals as reward to fine-tune MLLMs. We discovered that
CLS-RL outperforms SFT in most datasets and has a much higher average accuracy
on both base-to-new and few-shot learning setting. Moreover, we observed a
free-lunch phenomenon for CLS-RL; when models are fine-tuned on a particular
dataset, their performance on other distinct datasets may also improve over
zero-shot models, even if those datasets differ in distribution and class
names. This suggests that RL-based methods effectively teach models the
fundamentals of classification. Lastly, inspired by recent works in inference
time thinking, we re-examine the `thinking process' during fine-tuning, a
critical aspect of RL-based methods, in the context of visual classification.
We question whether such tasks require extensive thinking process during
fine-tuning, proposing that this may actually detract from performance. Based
on this premise, we introduce the No-Thinking-CLS-RL method, which minimizes
thinking processes during training by setting an equality accuracy reward. Our
findings indicate that, with much less fine-tuning time, No-Thinking-CLS-RL
method achieves superior in-domain performance and generalization capabilities
than CLS-RL.Summary
AI-Generated Summary