Verbeter de Vision Language Model voor redenering in ketens van gedachten.
Improve Vision Language Model Chain-of-thought Reasoning
October 21, 2024
Auteurs: Ruohong Zhang, Bowen Zhang, Yanghao Li, Haotian Zhang, Zhiqing Sun, Zhe Gan, Yinfei Yang, Ruoming Pang, Yiming Yang
cs.AI
Samenvatting
Keten-van-gedachten (CoT) redeneren in visuele taalmodellen (VLM's) is cruciaal voor het verbeteren van de interpreteerbaarheid en betrouwbaarheid. Echter, de huidige trainingsmethoden missen robuuste CoT redeneergegevens en vertrouwen op datasets gedomineerd door korte annotaties met minimale rechtvaardigingen. In dit werk laten we zien dat het trainen van VLM op korte antwoorden niet goed generaliseert naar redeneertaken die meer gedetailleerde antwoorden vereisen. Om dit aan te pakken, stellen we een tweeledige aanpak voor. Ten eerste destilleren we rechtvaardigingen van het GPT-4o model om de trainingsgegevens te verrijken en VLM's verder af te stemmen, waardoor hun CoT-prestaties worden verbeterd. Ten tweede passen we versterkend leren toe om de redeneerkwaliteit verder te kalibreren. Specifiek construeren we positieve (correcte) en negatieve (incorrecte) paren van door het model gegenereerde redeneerketens door hun voorspellingen te vergelijken met geannoteerde korte antwoorden. Met behulp van deze paar-gegevens passen we het Directe VoorkeursOptimalisatie-algoritme toe om de redeneervaardigheden van het model te verfijnen. Onze experimenten tonen significante verbeteringen in CoT redeneren op benchmarkdatasets en een betere generalisatie naar directe antwoordvoorspellingen. Dit werk benadrukt het belang van het opnemen van gedetailleerde rechtvaardigingen in de training en het benutten van versterkend leren om de redeneermogelijkheden van VLM's te versterken.
English
Chain-of-thought (CoT) reasoning in vision language models (VLMs) is crucial
for improving interpretability and trustworthiness. However, current training
recipes lack robust CoT reasoning data, relying on datasets dominated by short
annotations with minimal rationales. In this work, we show that training VLM on
short answers does not generalize well to reasoning tasks that require more
detailed responses. To address this, we propose a two-fold approach. First, we
distill rationales from GPT-4o model to enrich the training data and fine-tune
VLMs, boosting their CoT performance. Second, we apply reinforcement learning
to further calibrate reasoning quality. Specifically, we construct positive
(correct) and negative (incorrect) pairs of model-generated reasoning chains,
by comparing their predictions with annotated short answers. Using this
pairwise data, we apply the Direct Preference Optimization algorithm to refine
the model's reasoning abilities. Our experiments demonstrate significant
improvements in CoT reasoning on benchmark datasets and better generalization
to direct answer prediction as well. This work emphasizes the importance of
incorporating detailed rationales in training and leveraging reinforcement
learning to strengthen the reasoning capabilities of VLMs.Summary
AI-Generated Summary