WorldSimBench : Vers des modèles de génération vidéo en tant que simulateurs de monde

WorldSimBench: Towards Video Generation Models as World Simulators

October 23, 2024
Auteurs: Yiran Qin, Zhelun Shi, Jiwen Yu, Xijun Wang, Enshen Zhou, Lijun Li, Zhenfei Yin, Xihui Liu, Lu Sheng, Jing Shao, Lei Bai, Wanli Ouyang, Ruimao Zhang
cs.AI

Résumé

Les récents progrès dans les modèles prédictifs ont démontré des capacités exceptionnelles à prédire l'état futur des objets et des scènes. Cependant, le manque de catégorisation basée sur des caractéristiques inhérentes continue de freiner le développement des modèles prédictifs. De plus, les bancs d'essai existants ne parviennent pas à évaluer efficacement les modèles prédictifs à haute capacité et hautement incarnés d'un point de vue incarné. Dans ce travail, nous classifions les fonctionnalités des modèles prédictifs dans une hiérarchie et franchissons la première étape dans l'évaluation des simulateurs de monde en proposant un cadre d'évaluation double appelé WorldSimBench. WorldSimBench comprend une Évaluation Perceptive Explicite et une Évaluation Manipulative Implicite, englobant des évaluations de préférence humaine du point de vue visuel et des évaluations au niveau de l'action dans des tâches incarnées, couvrant trois scénarios incarnés représentatifs : Environnement Incarné à Ouverture Illimitée, Conduite Autonome et Manipulation de Robot. Dans l'Évaluation Perceptive Explicite, nous introduisons le jeu de données HF-Incarne, un jeu de données d'évaluation vidéo basé sur des retours humains détaillés, que nous utilisons pour entraîner un Évaluateur de Préférence Humaine qui se conforme à la perception humaine et évalue explicitement la fidélité visuelle des Simulateurs de Monde. Dans l'Évaluation Manipulative Implicite, nous évaluons la cohérence vidéo-action des Simulateurs de Monde en évaluant si la vidéo générée consciente de la situation peut être traduite avec précision en signaux de contrôle corrects dans des environnements dynamiques. Notre évaluation complète offre des informations clés qui peuvent stimuler davantage l'innovation dans les modèles de génération vidéo, positionnant les Simulateurs de Monde comme une avancée cruciale vers une intelligence artificielle incarnée.
English
Recent advancements in predictive models have demonstrated exceptional capabilities in predicting the future state of objects and scenes. However, the lack of categorization based on inherent characteristics continues to hinder the progress of predictive model development. Additionally, existing benchmarks are unable to effectively evaluate higher-capability, highly embodied predictive models from an embodied perspective. In this work, we classify the functionalities of predictive models into a hierarchy and take the first step in evaluating World Simulators by proposing a dual evaluation framework called WorldSimBench. WorldSimBench includes Explicit Perceptual Evaluation and Implicit Manipulative Evaluation, encompassing human preference assessments from the visual perspective and action-level evaluations in embodied tasks, covering three representative embodied scenarios: Open-Ended Embodied Environment, Autonomous, Driving, and Robot Manipulation. In the Explicit Perceptual Evaluation, we introduce the HF-Embodied Dataset, a video assessment dataset based on fine-grained human feedback, which we use to train a Human Preference Evaluator that aligns with human perception and explicitly assesses the visual fidelity of World Simulators. In the Implicit Manipulative Evaluation, we assess the video-action consistency of World Simulators by evaluating whether the generated situation-aware video can be accurately translated into the correct control signals in dynamic environments. Our comprehensive evaluation offers key insights that can drive further innovation in video generation models, positioning World Simulators as a pivotal advancement toward embodied artificial intelligence.

Summary

AI-Generated Summary

Paper Overview

Ce document évalue divers modèles de génération de vidéos à travers des scénarios d'environnement incarné ouvert, de conduite autonome et de manipulation robotique. Les évaluations explicites et implicites sont utilisées pour mesurer la qualité visuelle, la cohérence des conditions, l'incarnation, la trajectoire, etc. Les résultats montrent des comparaisons entre les évaluateurs de préférences humaines et les modèles de génération de vidéos, soulignant des performances différentes selon les scénarios.

Core Contribution

L'article propose une évaluation détaillée des modèles de génération de vidéos dans des scénarios incarnés, mettant en avant des critères spécifiques tels que la qualité visuelle, la cohérence des conditions, etc.

Research Context

Cette recherche se situe dans le domaine de l'évaluation des modèles de génération de vidéos pour des applications pratiques telles que la conduite autonome et la manipulation robotique, en mettant l'accent sur l'incarnation et la qualité des vidéos générées.

Keywords

  • Modèles de génération de vidéos
  • Scénarios incarnés
  • Évaluation explicite et implicite
  • Évaluateurs de préférences humaines
  • Qualité visuelle

Background

Ce document aborde l'évaluation des modèles de génération de vidéos dans des scénarios réalistes tels que la conduite autonome et la manipulation robotique. La recherche vise à combler les lacunes existantes en évaluant la qualité et la performance des modèles dans des environnements incarnés.

Research Gap

Il existe un besoin de mieux évaluer les modèles de génération de vidéos dans des scénarios réalistes pour garantir leur efficacité dans des applications pratiques.

Technical Challenges

Les défis techniques incluent l'incarnation des modèles, la qualité visuelle des vidéos générées et la cohérence des actions avec l'environnement simulé.

Prior Approaches

Les approches antérieures ont souvent manqué d'évaluation approfondie dans des scénarios incarnés réalistes, soulignant la nécessité d'une évaluation plus précise et complète.

Methodology

La méthodologie de recherche repose sur l'évaluation explicite et implicite des modèles de génération de vidéos dans des scénarios incarnés, en utilisant des ensembles de données spécifiques et des évaluateurs de préférences humaines.

Theoretical Foundation

Les modèles sont évalués en fonction de leur qualité visuelle, de leur cohérence avec l'environnement et de leur capacité à générer des actions réalistes dans des scénarios incarnés.

Technical Architecture

Les modèles sont finement ajustés à l'aide d'ensembles de données spécifiques et de méthodes d'entraînement adaptées à chaque scénario, garantissant des performances optimales.

Implementation Details

Différents modèles tels que GPT-4o, OpenSora, Lavie, etc., sont évalués dans des scénarios spécifiques tels que l'environnement incarné ouvert et la manipulation robotique.

Innovation Points

L'article met en lumière les forces et les limites des modèles de génération de vidéos actuels dans des scénarios réalistes, soulignant des opportunités d'amélioration et d'innovation.

Experimental Validation

L'évaluation expérimentale repose sur des configurations précises, des métriques détaillées et des comparaisons approfondies avec des baselines pour évaluer les performances des modèles de génération de vidéos.

Setup

Des ensembles de données spécifiques tels que OpenAI Contractor Gameplay et RH20T-P sont utilisés pour évaluer les modèles dans des scénarios d'environnement incarné ouvert et de manipulation robotique.

Metrics

Les performances des modèles sont mesurées en termes d'exactitude, de qualité visuelle, de cohérence des conditions, etc., pour évaluer leur efficacité dans des scénarios réalistes.

Results

Les résultats montrent des performances variées des modèles dans différents scénarios, mettant en évidence des forces et des faiblesses spécifiques de chaque modèle.

Comparative Analysis

Les modèles sont comparés aux évaluateurs de préférences humaines pour évaluer leur capacité à générer des vidéos de qualité et des actions réalistes dans des environnements incarnés.

Impact and Implications

Les résultats de l'évaluation ont des implications significatives pour l'amélioration des modèles de génération de vidéos dans des applications pratiques telles que la conduite autonome et la manipulation robotique.

Key Findings

Les modèles évalués montrent des performances diverses dans des scénarios réalistes, soulignant la nécessité d'améliorations pour une utilisation efficace dans le monde réel.

Limitations

Les modèles actuels ont du mal avec les environnements dynamiques et les actions temporelles, nécessitant des améliorations pour une meilleure adaptation aux scénarios réalistes.

Future Directions

Des recherches futures pourraient se concentrer sur l'amélioration de la génération de trajectoires, la compréhension des instructions et la perception de l'environnement pour renforcer les performances des modèles.

Practical Significance

Les modèles de génération de vidéos évalués offrent des opportunités pour l'intelligence artificielle générale et l'intelligence incarnée, soulignant leur potentiel dans des applications du monde réel.

Articles en Vedette

DeepSeek-R1 : Encourager la capacité de raisonnement dans les LLMs via l'apprentissage par renforcement
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

DeepSeek-AI, Daya Guo, Dejian Yang, Haowei Zhang, Junxiao Song, Ruoyu Zhang, Runxin Xu, Qihao Zhu, Shirong Ma, Peiyi Wang, Xiao Bi, Xiaokang Zhang, Xingkai Yu, Yu Wu, Z. F. Wu, Zhibin Gou, Zhihong Shao, Zhuoshu Li, Ziyi Gao, Aixin Liu, Bing Xue, Bingxuan Wang, Bochao Wu, Bei Feng, Chengda Lu, Chenggang Zhao, Chengqi Deng, Chenyu Zhang, Chong Ruan, Damai Dai, Deli Chen, Dongjie Ji, Erhang Li, Fangyun Lin, Fucong Dai, Fuli Luo, Guangbo Hao, Guanting Chen, Guowei Li, H. Zhang, Han Bao, Hanwei Xu, Haocheng Wang, Honghui Ding, Huajian Xin, Huazuo Gao, Hui Qu, Hui Li, Jianzhong Guo, Jiashi Li, Jiawei Wang, Jingchang Chen, Jingyang Yuan, Junjie Qiu, Junlong Li, J. L. Cai, Jiaqi Ni, Jian Liang, Jin Chen, Kai Dong, Kai Hu, Kaige Gao, Kang Guan, Kexin Huang, Kuai Yu, Lean Wang, Lecong Zhang, Liang Zhao, Litong Wang, Liyue Zhang, Lei Xu, Leyi Xia, Mingchuan Zhang, Minghua Zhang, Minghui Tang, Meng Li, Miaojun Wang, Mingming Li, Ning Tian, Panpan Huang, Peng Zhang, Qiancheng Wang, Qinyu Chen, Qiushi Du, Ruiqi Ge, Ruisong Zhang, Ruizhe Pan, Runji Wang, R. J. Chen, R. L. Jin, Ruyi Chen, Shanghao Lu, Shangyan Zhou, Shanhuang Chen, Shengfeng Ye, Shiyu Wang, Shuiping Yu, Shunfeng Zhou, Shuting Pan, S. S. Li, Shuang Zhou, Shaoqing Wu, Shengfeng Ye, Tao Yun, Tian Pei, Tianyu Sun, T. Wang, Wangding Zeng, Wanjia Zhao, Wen Liu, Wenfeng Liang, Wenjun Gao, Wenqin Yu, Wentao Zhang, W. L. Xiao, Wei An, Xiaodong Liu, Xiaohan Wang, Xiaokang Chen, Xiaotao Nie, Xin Cheng, Xin Liu, Xin Xie, Xingchao Liu, Xinyu Yang, Xinyuan Li, Xuecheng Su, Xuheng Lin, X. Q. Li, Xiangyue Jin, Xiaojin Shen, Xiaosha Chen, Xiaowen Sun, Xiaoxiang Wang, Xinnan Song, Xinyi Zhou, Xianzu Wang, Xinxia Shan, Y. K. Li, Y. Q. Wang, Y. X. Wei, Yang Zhang, Yanhong Xu, Yao Li, Yao Zhao, Yaofeng Sun, Yaohui Wang, Yi Yu, Yichao Zhang, Yifan Shi, Yiliang Xiong, Ying He, Yishi Piao, Yisong Wang, Yixuan Tan, Yiyang Ma, Yiyuan Liu, Yongqiang Guo, Yuan Ou, Yuduan Wang, Yue Gong, Yuheng Zou, Yujia He, Yunfan Xiong, Yuxiang Luo, Yuxiang You, Yuxuan Liu, Yuyang Zhou, Y. X. Zhu, Yanhong Xu, Yanping Huang, Yaohui Li, Yi Zheng, Yuchen Zhu, Yunxian Ma, Ying Tang, Yukun Zha, Yuting Yan, Z. Z. Ren, Zehui Ren, Zhangli Sha, Zhe Fu, Zhean Xu, Zhenda Xie, Zhengyan Zhang, Zhewen Hao, Zhicheng Ma, Zhigang Yan, Zhiyu Wu, Zihui Gu, Zijia Zhu, Zijun Liu, Zilin Li, Ziwei Xie, Ziyang Song, Zizheng Pan, Zhen Huang, Zhipeng Xu, Zhongyu Zhang, Zhen ZhangJan 22, 20253685

Rapport technique de Qwen2.5
Qwen2.5 Technical Report

Qwen, An Yang, Baosong Yang, Beichen Zhang, Binyuan Hui, Bo Zheng, Bowen Yu, Chengyuan Li, Dayiheng Liu, Fei Huang, Haoran Wei, Huan Lin, Jian Yang, Jianhong Tu, Jianwei Zhang, Jianxin Yang, Jiaxi Yang, Jingren Zhou, Junyang Lin, Kai Dang, Keming Lu, Keqin Bao, Kexin Yang, Le Yu, Mei Li, Mingfeng Xue, Pei Zhang, Qin Zhu, Rui Men, Runji Lin, Tianhao Li, Tingyu Xia, Xingzhang Ren, Xuancheng Ren, Yang Fan, Yang Su, Yichang Zhang, Yu Wan, Yuqiong Liu, Zeyu Cui, Zhenru Zhang, Zihan QiuDec 19, 202436311

MiniMax-01 : Mise à l'échelle des modèles de base avec Attention Éclair.
MiniMax-01: Scaling Foundation Models with Lightning Attention

MiniMax, Aonian Li, Bangwei Gong, Bo Yang, Boji Shan, Chang Liu, Cheng Zhu, Chunhao Zhang, Congchao Guo, Da Chen, Dong Li, Enwei Jiao, Gengxin Li, Guojun Zhang, Haohai Sun, Houze Dong, Jiadai Zhu, Jiaqi Zhuang, Jiayuan Song, Jin Zhu, Jingtao Han, Jingyang Li, Junbin Xie, Junhao Xu, Junjie Yan, Kaishun Zhang, Kecheng Xiao, Kexi Kang, Le Han, Leyang Wang, Lianfei Yu, Liheng Feng, Lin Zheng, Linbo Chai, Long Xing, Meizhi Ju, Mingyuan Chi, Mozhi Zhang, Peikai Huang, Pengcheng Niu, Pengfei Li, Pengyu Zhao, Qi Yang, Qidi Xu, Qiexiang Wang, Qin Wang, Qiuhui Li, Ruitao Leng, Shengmin Shi, Shuqi Yu, Sichen Li, Songquan Zhu, Tao Huang, Tianrun Liang, Weigao Sun, Weixuan Sun, Weiyu Cheng, Wenkai Li, Xiangjun Song, Xiao Su, Xiaodong Han, Xinjie Zhang, Xinzhu Hou, Xu Min, Xun Zou, Xuyang Shen, Yan Gong, Yingjie Zhu, Yipeng Zhou, Yiran Zhong, Yongyi Hu, Yuanxiang Fan, Yue Yu, Yufeng Yang, Yuhao Li, Yunan Huang, Yunji Li, Yunpeng Huang, Yunzhi Xu, Yuxin Mao, Zehan Li, Zekang Li, Zewei Tao, Zewen Ying, Zhaoyang Cong, Zhen Qin, Zhenhua Fan, Zhihang Yu, Zhuo Jiang, Zijia WuJan 14, 20252836

PDF202November 16, 2024