Pensando no Espaço: Como os Modelos de Linguagem Multimodais de Grande Escala Veem, Lembram e Recordam Espaços

Thinking in Space: How Multimodal Large Language Models See, Remember, and Recall Spaces

December 18, 2024
Autores: Jihan Yang, Shusheng Yang, Anjali W. Gupta, Rilyn Han, Li Fei-Fei, Saining Xie
cs.AI

Resumo

Os humanos possuem a inteligência visual-espacial para lembrar de espaços a partir de observações visuais sequenciais. No entanto, será que Modelos de Linguagem Multimodais de Grande Escala (MLLMs) treinados em conjuntos de dados de vídeo em escala de milhões também conseguem "pensar no espaço" a partir de vídeos? Apresentamos um novo benchmark de inteligência visual-espacial baseado em vídeo (VSI-Bench) com mais de 5.000 pares de perguntas e respostas, e descobrimos que os MLLMs exibem inteligência visual-espacial competitiva - embora sub-humana. Investigamos os modelos para expressar como pensam no espaço tanto linguisticamente quanto visualmente e descobrimos que, embora as capacidades de raciocínio espacial permaneçam o principal gargalo para os MLLMs atingirem um desempenho de benchmark mais alto, modelos locais do mundo e consciência espacial emergem dentro desses modelos. Notavelmente, técnicas de raciocínio linguístico predominantes (por exemplo, encadeamento de pensamento, autoconsistência, árvore de pensamentos) falham em melhorar o desempenho, enquanto a geração explícita de mapas cognitivos durante a resposta a perguntas aprimora a capacidade de distância espacial dos MLLMs.
English
Humans possess the visual-spatial intelligence to remember spaces from sequential visual observations. However, can Multimodal Large Language Models (MLLMs) trained on million-scale video datasets also ``think in space'' from videos? We present a novel video-based visual-spatial intelligence benchmark (VSI-Bench) of over 5,000 question-answer pairs, and find that MLLMs exhibit competitive - though subhuman - visual-spatial intelligence. We probe models to express how they think in space both linguistically and visually and find that while spatial reasoning capabilities remain the primary bottleneck for MLLMs to reach higher benchmark performance, local world models and spatial awareness do emerge within these models. Notably, prevailing linguistic reasoning techniques (e.g., chain-of-thought, self-consistency, tree-of-thoughts) fail to improve performance, whereas explicitly generating cognitive maps during question-answering enhances MLLMs' spatial distance ability.

Summary

AI-Generated Summary

PDF242December 19, 2024