LLaVA-o1 : Permettre aux Modèles de Langage Visuel de Raisonner Étape par Étape
LLaVA-o1: Let Vision Language Models Reason Step-by-Step
November 15, 2024
Auteurs: Guowei Xu, Peng Jin, Li Hao, Yibing Song, Lichao Sun, Li Yuan
cs.AI
Résumé
Les grands modèles de langage ont démontré des avancées substantielles dans les capacités de raisonnement, en particulier grâce à l'augmentation à l'inférence, comme illustré par des modèles tels que l'o1 d'OpenAI. Cependant, les Modèles Vision-Langage (VLM) actuels ont souvent du mal à effectuer un raisonnement systématique et structuré, notamment lorsqu'ils traitent des tâches complexes de questions-réponses visuelles. Dans ce travail, nous présentons LLaVA-o1, un nouveau VLM conçu pour effectuer un raisonnement autonome à plusieurs étapes. Contrairement à la simple incitation en chaîne de pensées, LLaVA-o1 s'engage de manière indépendante dans des étapes séquentielles de résumé, d'interprétation visuelle, de raisonnement logique et de génération de conclusions. Cette approche structurée permet à LLaVA-o1 d'obtenir des améliorations marquées en précision sur des tâches intensives en raisonnement. Pour y parvenir, nous avons compilé l'ensemble de données LLaVA-o1-100k, en intégrant des échantillons de diverses sources de questions-réponses visuelles et en fournissant des annotations de raisonnement structuré. De plus, nous proposons une méthode de recherche en faisceau au niveau des étapes au moment de l'inférence, qui permet une augmentation efficace à l'inférence. Remarquablement, avec seulement 100 000 échantillons d'entraînement et une méthode d'augmentation à l'inférence simple mais efficace, LLaVA-o1 surpasse non seulement son modèle de base de 8,9 % sur un large éventail de référentiels de raisonnement multimodal, mais dépasse également les performances de modèles plus grands voire fermés, tels que Gemini-1.5-pro, GPT-4o-mini et Llama-3.2-90B-Vision-Instruct.
English
Large language models have demonstrated substantial advancements in reasoning
capabilities, particularly through inference-time scaling, as illustrated by
models such as OpenAI's o1. However, current Vision-Language Models (VLMs)
often struggle to perform systematic and structured reasoning, especially when
handling complex visual question-answering tasks. In this work, we introduce
LLaVA-o1, a novel VLM designed to conduct autonomous multistage reasoning.
Unlike chain-of-thought prompting, LLaVA-o1 independently engages in sequential
stages of summarization, visual interpretation, logical reasoning, and
conclusion generation. This structured approach enables LLaVA-o1 to achieve
marked improvements in precision on reasoning-intensive tasks. To accomplish
this, we compile the LLaVA-o1-100k dataset, integrating samples from various
visual question answering sources and providing structured reasoning
annotations. Besides, we propose an inference-time stage-level beam search
method, which enables effective inference-time scaling. Remarkably, with only
100k training samples and a simple yet effective inference time scaling method,
LLaVA-o1 not only outperforms its base model by 8.9% on a wide range of
multimodal reasoning benchmarks, but also surpasses the performance of larger
and even closed-source models, such as Gemini-1.5-pro, GPT-4o-mini, and
Llama-3.2-90B-Vision-Instruct.Summary
AI-Generated Summary