ChatPaper.aiChatPaper

자연 비디오에서의 자기 지도 사전 훈련으로부터 직관적 물리학 이해가 나타난다.

Intuitive physics understanding emerges from self-supervised pretraining on natural videos

February 17, 2025
저자: Quentin Garrido, Nicolas Ballas, Mahmoud Assran, Adrien Bardes, Laurent Najman, Michael Rabbat, Emmanuel Dupoux, Yann LeCun
cs.AI

초록

우리는 자연 비디오의 가려진 영역을 예측하기 위해 훈련된 일반 목적의 심층 신경망 모델에서 직관적 물리학 이해의 발생을 조사합니다. 기대 위반 프레임워크를 활용하여, 학습된 표현 공간에서 결과를 예측하기 위해 훈련된 비디오 예측 모델은 물체의 영속성 및 모양 일관성과 같은 다양한 직관적 물리학 속성을 이해한다는 것을 발견했습니다. 이에 반해, 픽셀 공간 및 텍스트를 통해 추론하는 다중 모달 대형 언어 모델은 기대치에 더 가까운 성능을 달성합니다. 이러한 아키텍처들의 비교는 예측 코딩과 유사하게 감각 입력의 누락된 부분을 예측하면서 추상적 표현 공간을 공동으로 학습하는 것이 직관적 물리학을 이해하는 데 충분하다는 것을 보여주며, 심지어 일주일간의 고유 비디오로 훈련된 모델도 기대치 이상의 성능을 달성합니다. 이는 핵심 지식인 세트가 세계를 이해하는 데 도움을 주는 타고난 시스템의 집합이 직관적 물리학을 이해하기 위해 유선으로 되어야 한다는 아이디어에 도전합니다.
English
We investigate the emergence of intuitive physics understanding in general-purpose deep neural network models trained to predict masked regions in natural videos. Leveraging the violation-of-expectation framework, we find that video prediction models trained to predict outcomes in a learned representation space demonstrate an understanding of various intuitive physics properties, such as object permanence and shape consistency. In contrast, video prediction in pixel space and multimodal large language models, which reason through text, achieve performance closer to chance. Our comparisons of these architectures reveal that jointly learning an abstract representation space while predicting missing parts of sensory input, akin to predictive coding, is sufficient to acquire an understanding of intuitive physics, and that even models trained on one week of unique video achieve above chance performance. This challenges the idea that core knowledge -- a set of innate systems to help understand the world -- needs to be hardwired to develop an understanding of intuitive physics.

Summary

AI-Generated Summary

PDF132February 18, 2025