Pensando no Espaço: Como os Modelos de Linguagem Multimodais de Grande Escala Veem, Lembram e Recordam Espaços
Thinking in Space: How Multimodal Large Language Models See, Remember, and Recall Spaces
December 18, 2024
Autores: Jihan Yang, Shusheng Yang, Anjali W. Gupta, Rilyn Han, Li Fei-Fei, Saining Xie
cs.AI
Resumo
Os humanos possuem a inteligência visual-espacial para lembrar de espaços a partir de observações visuais sequenciais. No entanto, será que Modelos de Linguagem Multimodais de Grande Escala (MLLMs) treinados em conjuntos de dados de vídeo em escala de milhões também conseguem "pensar no espaço" a partir de vídeos? Apresentamos um novo benchmark de inteligência visual-espacial baseado em vídeo (VSI-Bench) com mais de 5.000 pares de perguntas e respostas, e descobrimos que os MLLMs exibem inteligência visual-espacial competitiva - embora sub-humana. Investigamos os modelos para expressar como pensam no espaço tanto linguisticamente quanto visualmente e descobrimos que, embora as capacidades de raciocínio espacial permaneçam o principal gargalo para os MLLMs atingirem um desempenho de benchmark mais alto, modelos locais do mundo e consciência espacial emergem dentro desses modelos. Notavelmente, técnicas de raciocínio linguístico predominantes (por exemplo, encadeamento de pensamento, autoconsistência, árvore de pensamentos) falham em melhorar o desempenho, enquanto a geração explícita de mapas cognitivos durante a resposta a perguntas aprimora a capacidade de distância espacial dos MLLMs.
English
Humans possess the visual-spatial intelligence to remember spaces from
sequential visual observations. However, can Multimodal Large Language Models
(MLLMs) trained on million-scale video datasets also ``think in space'' from
videos? We present a novel video-based visual-spatial intelligence benchmark
(VSI-Bench) of over 5,000 question-answer pairs, and find that MLLMs exhibit
competitive - though subhuman - visual-spatial intelligence. We probe models to
express how they think in space both linguistically and visually and find that
while spatial reasoning capabilities remain the primary bottleneck for MLLMs to
reach higher benchmark performance, local world models and spatial awareness do
emerge within these models. Notably, prevailing linguistic reasoning techniques
(e.g., chain-of-thought, self-consistency, tree-of-thoughts) fail to improve
performance, whereas explicitly generating cognitive maps during
question-answering enhances MLLMs' spatial distance ability.Summary
AI-Generated Summary