ChatPaper.aiChatPaper

물리적 AI를 위한 코스모스 월드 재담 모델 플랫폼

Cosmos World Foundation Model Platform for Physical AI

January 7, 2025
저자: NVIDIA, Niket Agarwal, Arslan Ali, Maciej Bala, Yogesh Balaji, Erik Barker, Tiffany Cai, Prithvijit Chattopadhyay, Yongxin Chen, Yin Cui, Yifan Ding, Daniel Dworakowski, Jiaojiao Fan, Michele Fenzi, Francesco Ferroni, Sanja Fidler, Dieter Fox, Songwei Ge, Yunhao Ge, Jinwei Gu, Siddharth Gururani, Ethan He, Jiahui Huang, Jacob Huffman, Pooya Jannaty, Jingyi Jin, Seung Wook Kim, Gergely Klár, Grace Lam, Shiyi Lan, Laura Leal-Taixe, Anqi Li, Zhaoshuo Li, Chen-Hsuan Lin, Tsung-Yi Lin, Huan Ling, Ming-Yu Liu, Xian Liu, Alice Luo, Qianli Ma, Hanzi Mao, Kaichun Mo, Arsalan Mousavian, Seungjun Nah, Sriharsha Niverty, David Page, Despoina Paschalidou, Zeeshan Patel, Lindsey Pavao, Morteza Ramezanali, Fitsum Reda, Xiaowei Ren, Vasanth Rao Naik Sabavat, Ed Schmerling, Stella Shi, Bartosz Stefaniak, Shitao Tang, Lyne Tchapmi, Przemek Tredak, Wei-Cheng Tseng, Jibin Varghese, Hao Wang, Haoxiang Wang, Heng Wang, Ting-Chun Wang, Fangyin Wei, Xinyue Wei, Jay Zhangjie Wu, Jiashu Xu, Wei Yang, Lin Yen-Chen, Xiaohui Zeng, Yu Zeng, Jing Zhang, Qinsheng Zhang, Yuxuan Zhang, Qingqing Zhao, Artur Zolkowski
cs.AI

초록

물리적 AI는 디지털로 먼저 훈련되어야 합니다. 자신의 디지털 쌍둥이인 정책 모델과 세계의 디지털 쌍둥이인 세계 모델이 필요합니다. 본 논문에서는 개발자가 물리적 AI 설정을 위해 사용자 정의 세계 모델을 구축하는 데 도움이 되는 Cosmos World Foundation Model Platform을 제안합니다. 우리는 세계 기초 모델을 일반 목적의 세계 모델로 위치시키고, 하류 응용 프로그램을 위해 사용자 정의 세계 모델로 세밀하게 조정할 수 있는 것으로 합니다. 우리의 플랫폼은 비디오 큐레이션 파이프라인, 사전 훈련된 세계 기초 모델, 사전 훈련된 세계 기초 모델의 사후 훈련 예제 및 비디오 토크나이저를 다룹니다. 물리적 AI 빌더가 우리 사회의 가장 중요한 문제를 해결하는 데 도움을 주기 위해 우리의 플랫폼을 오픈 소스로 제공하고 우리의 모델을 오픈 가중치로 제공하며 허용되는 라이선스를 통해 https://github.com/NVIDIA/Cosmos에서 사용할 수 있습니다.
English
Physical AI needs to be trained digitally first. It needs a digital twin of itself, the policy model, and a digital twin of the world, the world model. In this paper, we present the Cosmos World Foundation Model Platform to help developers build customized world models for their Physical AI setups. We position a world foundation model as a general-purpose world model that can be fine-tuned into customized world models for downstream applications. Our platform covers a video curation pipeline, pre-trained world foundation models, examples of post-training of pre-trained world foundation models, and video tokenizers. To help Physical AI builders solve the most critical problems of our society, we make our platform open-source and our models open-weight with permissive licenses available via https://github.com/NVIDIA/Cosmos.

Summary

AI-Generated Summary

PDF692January 8, 2025