Verbeter de Vision Language Model voor redenering in ketens van gedachten.

Samenvatting

Keten-van-gedachten (CoT) redeneren in visuele taalmodellen (VLM's) is cruciaal voor het verbeteren van de interpreteerbaarheid en betrouwbaarheid. Echter, de huidige trainingsmethoden missen robuuste CoT redeneergegevens en vertrouwen op datasets gedomineerd door korte annotaties met minimale rechtvaardigingen. In dit werk laten we zien dat het trainen van VLM op korte antwoorden niet goed generaliseert naar redeneertaken die meer gedetailleerde antwoorden vereisen. Om dit aan te pakken, stellen we een tweeledige aanpak voor. Ten eerste destilleren we rechtvaardigingen van het GPT-4o model om de trainingsgegevens te verrijken en VLM's verder af te stemmen, waardoor hun CoT-prestaties worden verbeterd. Ten tweede passen we versterkend leren toe om de redeneerkwaliteit verder te kalibreren. Specifiek construeren we positieve (correcte) en negatieve (incorrecte) paren van door het model gegenereerde redeneerketens door hun voorspellingen te vergelijken met geannoteerde korte antwoorden. Met behulp van deze paar-gegevens passen we het Directe VoorkeursOptimalisatie-algoritme toe om de redeneervaardigheden van het model te verfijnen. Onze experimenten tonen significante verbeteringen in CoT redeneren op benchmarkdatasets en een betere generalisatie naar directe antwoordvoorspellingen. Dit werk benadrukt het belang van het opnemen van gedetailleerde rechtvaardigingen in de training en het benutten van versterkend leren om de redeneermogelijkheden van VLM's te versterken.

English

Chain-of-thought (CoT) reasoning in vision language models (VLMs) is crucial for improving interpretability and trustworthiness. However, current training recipes lack robust CoT reasoning data, relying on datasets dominated by short annotations with minimal rationales. In this work, we show that training VLM on short answers does not generalize well to reasoning tasks that require more detailed responses. To address this, we propose a two-fold approach. First, we distill rationales from GPT-4o model to enrich the training data and fine-tune VLMs, boosting their CoT performance. Second, we apply reinforcement learning to further calibrate reasoning quality. Specifically, we construct positive (correct) and negative (incorrect) pairs of model-generated reasoning chains, by comparing their predictions with annotated short answers. Using this pairwise data, we apply the Direct Preference Optimization algorithm to refine the model's reasoning abilities. Our experiments demonstrate significant improvements in CoT reasoning on benchmark datasets and better generalization to direct answer prediction as well. This work emphasizes the importance of incorporating detailed rationales in training and leveraging reinforcement learning to strengthen the reasoning capabilities of VLMs.

Verbeter de Vision Language Model voor redenering in ketens van gedachten.

Improve Vision Language Model Chain-of-thought Reasoning

Samenvatting

Summary

Support