记忆、基准测试与机器人:用强化学习解决复杂任务的基准测试
Memory, Benchmark & Robots: A Benchmark for Solving Complex Tasks with Reinforcement Learning
February 14, 2025
作者: Egor Cherepanov, Nikita Kachaev, Alexey K. Kovalev, Aleksandr I. Panov
cs.AI
摘要
记忆对于使代理能够处理具有时间和空间依赖关系的复杂任务至关重要。虽然许多强化学习(RL)算法包含记忆,但该领域缺乏一个通用基准来评估代理在不同场景下的记忆能力。这一差距在桌面机器人操作中尤为明显,那里记忆对于解决具有部分可观察性的任务和确保稳健性至关重要,然而目前并没有标准化的基准。为了解决这个问题,我们引入了MIKASA(Memory-Intensive Skills Assessment Suite for Agents),这是一个用于记忆强化学习的全面基准,具有三个关键贡献:(1)我们提出了一个记忆密集型RL任务的全面分类框架,(2)我们收集了MIKASA-Base - 一个统一的基准,可以系统评估在不同场景下记忆增强型代理的性能,以及(3)我们开发了MIKASA-Robo - 一个包含32个精心设计的记忆密集型任务的新型基准,用于评估桌面机器人操作中的记忆能力。我们的贡献建立了一个统一的框架,推动了记忆强化学习研究的发展,推动了更可靠的系统用于真实世界应用。代码可在https://sites.google.com/view/memorybenchrobots/ 获取。
English
Memory is crucial for enabling agents to tackle complex tasks with temporal
and spatial dependencies. While many reinforcement learning (RL) algorithms
incorporate memory, the field lacks a universal benchmark to assess an agent's
memory capabilities across diverse scenarios. This gap is particularly evident
in tabletop robotic manipulation, where memory is essential for solving tasks
with partial observability and ensuring robust performance, yet no standardized
benchmarks exist. To address this, we introduce MIKASA (Memory-Intensive Skills
Assessment Suite for Agents), a comprehensive benchmark for memory RL, with
three key contributions: (1) we propose a comprehensive classification
framework for memory-intensive RL tasks, (2) we collect MIKASA-Base - a unified
benchmark that enables systematic evaluation of memory-enhanced agents across
diverse scenarios, and (3) we develop MIKASA-Robo - a novel benchmark of 32
carefully designed memory-intensive tasks that assess memory capabilities in
tabletop robotic manipulation. Our contributions establish a unified framework
for advancing memory RL research, driving the development of more reliable
systems for real-world applications. The code is available at
https://sites.google.com/view/memorybenchrobots/.Summary
AI-Generated Summary
论文概述
核心贡献
- 提出了一个全面的记忆强化学习任务分类框架。
- 收集了MIKASA-Base,一个统一的基准,用于系统评估记忆增强的智能体。
- 开发了MIKASA-Robo,一个包含32个精心设计的记忆密集型任务的基准,用于评估桌面机器人操作中的记忆能力。
研究背景
- 记忆对于处理具有时间和空间依赖性的复杂任务至关重要。
- 尽管许多强化学习算法都包含记忆,但该领域缺乏一个通用的基准来评估智能体在不同场景下的记忆能力。
- 在桌面机器人操作中,记忆对于解决部分可观测任务和确保鲁棒性能至关重要,但目前没有标准化的基准。
关键词
- 记忆强化学习
- 基准测试
- 机器人操作
- 部分可观测性
背景
研究空白
- 缺乏一个统一的基准来评估智能体的记忆能力。
- 现有的基准通常集中在特定的记忆利用方面,无法全面评估智能体的记忆能力。
技术挑战
- 设计能够全面评估记忆能力的任务。
- 确保任务能够反映真实世界中的复杂性和部分可观测性。
先前方法
- 现有的基准如POPGym、DMLab-30和MemoryGym集中在特定的记忆利用方面,无法全面评估智能体的记忆能力。
方法论
技术架构
- 提出了一个分类框架,将记忆密集型任务分为四类:对象记忆、空间记忆、序列记忆和记忆容量。
- 开发了MIKASA-Base,一个基于Gymnasium的框架,用于评估记忆增强的强化学习智能体。
- 开发了MIKASA-Robo,一个包含32个记忆密集型任务的基准,用于评估桌面机器人操作中的记忆能力。
实现细节
- MIKASA-Base和MIKASA-Robo都支持多种观察模式,包括状态、RGB+关节和RGB。
- 每个任务都设计了稀疏和密集的奖励结构,以评估智能体在不同条件下的表现。
创新点
- 提出了一个全面的记忆任务分类框架。
- 开发了一个统一的基准,能够系统评估记忆增强的智能体。
- 设计了一个专门用于评估机器人操作中记忆能力的基准。
结果
实验设置
- 使用PPO-MLP和PPO-LSTM作为基线模型,分别在状态模式和RGB+关节模式下进行训练。
- 评估了智能体在不同任务中的表现,包括ShellGame、RememberColor、Intercept等。
主要发现
- 在状态模式下,PPO-MLP能够完美解决所有任务,验证了任务设计的合理性。
- 在RGB+关节模式下,PPO-LSTM在简单任务中表现优异,但随着任务复杂性的增加,性能显著下降。
- 在稀疏奖励条件下,所有基线模型的表现都较差,表明记忆密集型任务在真实世界中的挑战性。
局限性
- 当前的内存机制在处理高复杂性任务时表现有限。
- 稀疏奖励条件下的任务解决仍然是一个重大挑战。
结论
- 提出了一个全面的记忆任务分类框架,并开发了MIKASA-Base和MIKASA-Robo基准,填补了记忆增强强化学习研究中的关键空白。
- 这些贡献为未来的研究提供了基础,推动了更可靠和实用的自主系统的发展。
1比特LLM时代:所有大型语言模型均为1.58比特。The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits
1比特LLM时代:所有大型语言模型均为1.58比特。
The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits
Shuming Ma, Hongyu Wang, Lingxiao Ma, Lei Wang, Wenhui Wang, Shaohan Huang, Li Dong, Ruiping Wang, Jilong Xue, Furu Wei•Feb 27, 2024•610142
Qwen2.5 技术报告Qwen2.5 Technical Report
Qwen2.5 技术报告
Qwen2.5 Technical Report
Qwen, An Yang, Baosong Yang, Beichen Zhang, Binyuan Hui, Bo Zheng, Bowen Yu, Chengyuan Li, Dayiheng Liu, Fei Huang, Haoran Wei, Huan Lin, Jian Yang, Jianhong Tu, Jianwei Zhang, Jianxin Yang, Jiaxi Yang, Jingren Zhou, Junyang Lin, Kai Dang, Keming Lu, Keqin Bao, Kexin Yang, Le Yu, Mei Li, Mingfeng Xue, Pei Zhang, Qin Zhu, Rui Men, Runji Lin, Tianhao Li, Tingyu Xia, Xingzhang Ren, Xuancheng Ren, Yang Fan, Yang Su, Yichang Zhang, Yu Wan, Yuqiong Liu, Zeyu Cui, Zhenru Zhang, Zihan Qiu•Dec 19, 2024•35311
DeepSeek-R1:通过强化学习激励LLMs中的推理能力DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via
Reinforcement Learning
DeepSeek-R1:通过强化学习激励LLMs中的推理能力
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via
Reinforcement Learning
DeepSeek-AI, Daya Guo, Dejian Yang, Haowei Zhang, Junxiao Song, Ruoyu Zhang, Runxin Xu, Qihao Zhu, Shirong Ma, Peiyi Wang, Xiao Bi, Xiaokang Zhang, Xingkai Yu, Yu Wu, Z. F. Wu, Zhibin Gou, Zhihong Shao, Zhuoshu Li, Ziyi Gao, Aixin Liu, Bing Xue, Bingxuan Wang, Bochao Wu, Bei Feng, Chengda Lu, Chenggang Zhao, Chengqi Deng, Chenyu Zhang, Chong Ruan, Damai Dai, Deli Chen, Dongjie Ji, Erhang Li, Fangyun Lin, Fucong Dai, Fuli Luo, Guangbo Hao, Guanting Chen, Guowei Li, H. Zhang, Han Bao, Hanwei Xu, Haocheng Wang, Honghui Ding, Huajian Xin, Huazuo Gao, Hui Qu, Hui Li, Jianzhong Guo, Jiashi Li, Jiawei Wang, Jingchang Chen, Jingyang Yuan, Junjie Qiu, Junlong Li, J. L. Cai, Jiaqi Ni, Jian Liang, Jin Chen, Kai Dong, Kai Hu, Kaige Gao, Kang Guan, Kexin Huang, Kuai Yu, Lean Wang, Lecong Zhang, Liang Zhao, Litong Wang, Liyue Zhang, Lei Xu, Leyi Xia, Mingchuan Zhang, Minghua Zhang, Minghui Tang, Meng Li, Miaojun Wang, Mingming Li, Ning Tian, Panpan Huang, Peng Zhang, Qiancheng Wang, Qinyu Chen, Qiushi Du, Ruiqi Ge, Ruisong Zhang, Ruizhe Pan, Runji Wang, R. J. Chen, R. L. Jin, Ruyi Chen, Shanghao Lu, Shangyan Zhou, Shanhuang Chen, Shengfeng Ye, Shiyu Wang, Shuiping Yu, Shunfeng Zhou, Shuting Pan, S. S. Li, Shuang Zhou, Shaoqing Wu, Shengfeng Ye, Tao Yun, Tian Pei, Tianyu Sun, T. Wang, Wangding Zeng, Wanjia Zhao, Wen Liu, Wenfeng Liang, Wenjun Gao, Wenqin Yu, Wentao Zhang, W. L. Xiao, Wei An, Xiaodong Liu, Xiaohan Wang, Xiaokang Chen, Xiaotao Nie, Xin Cheng, Xin Liu, Xin Xie, Xingchao Liu, Xinyu Yang, Xinyuan Li, Xuecheng Su, Xuheng Lin, X. Q. Li, Xiangyue Jin, Xiaojin Shen, Xiaosha Chen, Xiaowen Sun, Xiaoxiang Wang, Xinnan Song, Xinyi Zhou, Xianzu Wang, Xinxia Shan, Y. K. Li, Y. Q. Wang, Y. X. Wei, Yang Zhang, Yanhong Xu, Yao Li, Yao Zhao, Yaofeng Sun, Yaohui Wang, Yi Yu, Yichao Zhang, Yifan Shi, Yiliang Xiong, Ying He, Yishi Piao, Yisong Wang, Yixuan Tan, Yiyang Ma, Yiyuan Liu, Yongqiang Guo, Yuan Ou, Yuduan Wang, Yue Gong, Yuheng Zou, Yujia He, Yunfan Xiong, Yuxiang Luo, Yuxiang You, Yuxuan Liu, Yuyang Zhou, Y. X. Zhu, Yanhong Xu, Yanping Huang, Yaohui Li, Yi Zheng, Yuchen Zhu, Yunxian Ma, Ying Tang, Yukun Zha, Yuting Yan, Z. Z. Ren, Zehui Ren, Zhangli Sha, Zhe Fu, Zhean Xu, Zhenda Xie, Zhengyan Zhang, Zhewen Hao, Zhicheng Ma, Zhigang Yan, Zhiyu Wu, Zihui Gu, Zijia Zhu, Zijun Liu, Zilin Li, Ziwei Xie, Ziyang Song, Zizheng Pan, Zhen Huang, Zhipeng Xu, Zhongyu Zhang, Zhen Zhang•Jan 22, 2025•3485