Улучшенное визуально-пространственное мышление с помощью обучения, подобного R1-Zero
Improved Visual-Spatial Reasoning via R1-Zero-Like Training
April 1, 2025
Авторы: Zhenyi Liao, Qingsong Xie, Yanhao Zhang, Zijian Kong, Haonan Lu, Zhenyu Yang, Zhijie Deng
cs.AI
Аннотация
Все больше внимания уделяется улучшению способностей к рассуждению у многомодальных больших языковых моделей (MLLMs). Как основа для ИИ-агентов, функционирующих в физическом мире, визуально-пространственный интеллект (VSI) на основе видео становится одной из наиболее важных способностей к рассуждению у MLLMs. В данной работе проводится первое глубокое исследование по улучшению визуально-пространственного рассуждения у MLLMs с помощью обучения, подобного R1-Zero. Технически, мы сначала выявляем, что способности к визуально-пространственному рассуждению у моделей Qwen2-VL малого и среднего размера не могут быть активированы с помощью подсказок "Цепочка мыслей" (CoT). Затем мы внедряем обучение GRPO для улучшения визуально-пространственного рассуждения, используя тщательно отобранный набор данных VSI-100k, следуя подходу DeepSeek-R1-Zero. В ходе исследования мы выявляем необходимость сохранения штрафа KL (даже с небольшим значением) в GRPO. Всего за 120 часов работы на GPU наша модель vsGRPO-2B, дообученная на основе Qwen2-VL-2B, превосходит базовую модель на 12.1% и опережает GPT-4o. Кроме того, наша модель vsGRPO-7B, дообученная на основе Qwen2-VL-7B, достигает производительности, сопоставимой с лучшей открытой моделью LLaVA-NeXT-Video-72B. Дополнительно мы сравниваем vsGRPO с базовыми подходами контролируемого дообучения и оптимизации прямых предпочтений и наблюдаем значительное превосходство в производительности. Код и набор данных будут доступны в ближайшее время.
English
Increasing attention has been placed on improving the reasoning capacities of
multi-modal large language models (MLLMs). As the cornerstone for AI agents
that function in the physical realm, video-based visual-spatial intelligence
(VSI) emerges as one of the most pivotal reasoning capabilities of MLLMs. This
work conducts a first, in-depth study on improving the visual-spatial reasoning
of MLLMs via R1-Zero-like training. Technically, we first identify that the
visual-spatial reasoning capacities of small- to medium-sized Qwen2-VL models
cannot be activated via Chain of Thought (CoT) prompts. We then incorporate
GRPO training for improved visual-spatial reasoning, using the carefully
curated VSI-100k dataset, following DeepSeek-R1-Zero. During the investigation,
we identify the necessity to keep the KL penalty (even with a small value) in
GRPO. With just 120 GPU hours, our vsGRPO-2B model, fine-tuned from
Qwen2-VL-2B, can outperform the base model by 12.1% and surpass GPT-4o.
Moreover, our vsGRPO-7B model, fine-tuned from Qwen2-VL-7B, achieves
performance comparable to that of the best open-source model
LLaVA-NeXT-Video-72B. Additionally, we compare vsGRPO to supervised fine-tuning
and direct preference optimization baselines and observe strong performance
superiority. The code and dataset will be available soon.Summary
AI-Generated Summary