LLaVA-o1: 비전 언어 모델이 단계별로 추론하도록 함

LLaVA-o1: Let Vision Language Models Reason Step-by-Step

November 15, 2024
저자: Guowei Xu, Peng Jin, Li Hao, Yibing Song, Lichao Sun, Li Yuan
cs.AI

초록

대형 언어 모델은 추론 능력에서 상당한 발전을 보여주었으며, 특히 추론 시간 스케일링을 통해 이를 입증하였다. 이는 OpenAI의 o1과 같은 모델들로 설명되었다. 그러나 현재의 시각-언어 모델(VLMs)은 복잡한 시각 질문 응답 작업을 다룰 때 특히 체계적이고 구조화된 추론을 수행하는 데 어려움을 겪는다. 본 연구에서는 자율적인 다단계 추론을 수행하기 위해 설계된 혁신적인 VLM인 LLaVA-o1을 소개한다. 연상의 연쇄가 아닌 LLaVA-o1은 요약, 시각 해석, 논리적 추론 및 결론 생성의 순차적 단계에 독립적으로 참여한다. 이러한 구조화된 접근은 LLaVA-o1이 추론 집중적 작업에서 정밀도를 향상시키도록 한다. 이를 달성하기 위해 다양한 시각 질문 응답 소스에서 샘플을 통합하고 구조화된 추론 주석을 제공하는 LLaVA-o1-100k 데이터셋을 편성한다. 또한 추론 시간 단계별 빔 검색 방법을 제안하여 효과적인 추론 시간 스케일링을 가능하게 한다. 놀랍게도, 100k개의 훈련 샘플과 간단하면서 효과적인 추론 시간 스케일링 방법만으로 LLaVA-o1은 다양한 다중 모달 추론 벤치마크에서 기본 모델을 8.9% 능가할 뿐만 아니라 Gemini-1.5-pro, GPT-4o-mini, Llama-3.2-90B-Vision-Instruct와 같은 더 크고 심지어 폐쇄 소스 모델의 성능을 능가한다.
English
Large language models have demonstrated substantial advancements in reasoning capabilities, particularly through inference-time scaling, as illustrated by models such as OpenAI's o1. However, current Vision-Language Models (VLMs) often struggle to perform systematic and structured reasoning, especially when handling complex visual question-answering tasks. In this work, we introduce LLaVA-o1, a novel VLM designed to conduct autonomous multistage reasoning. Unlike chain-of-thought prompting, LLaVA-o1 independently engages in sequential stages of summarization, visual interpretation, logical reasoning, and conclusion generation. This structured approach enables LLaVA-o1 to achieve marked improvements in precision on reasoning-intensive tasks. To accomplish this, we compile the LLaVA-o1-100k dataset, integrating samples from various visual question answering sources and providing structured reasoning annotations. Besides, we propose an inference-time stage-level beam search method, which enables effective inference-time scaling. Remarkably, with only 100k training samples and a simple yet effective inference time scaling method, LLaVA-o1 not only outperforms its base model by 8.9% on a wide range of multimodal reasoning benchmarks, but also surpasses the performance of larger and even closed-source models, such as Gemini-1.5-pro, GPT-4o-mini, and Llama-3.2-90B-Vision-Instruct.

Summary

AI-Generated Summary

PDF937November 18, 2024