具身评测基准是指用于评估具身智能系统(如机器人、智能代理等)在真实或模拟物理环境中执行任务的能力、性能和质量的一套标准化测试框架和指标体系。
近年来,业内已经基本形成了真机和仿真两套方案,其中真机评测方案因其能够触达真实场景,被业内团队广泛关注。
今天为大家盘点一下具身智能领域都有哪些真机评测基准。
以下评测基准均已收录至『具身智能之心-开源知识库社区』"具身评测基准"版块的子文档"真机评测基准"部分,更多内容可至开源知识库社区查看~
原文链接:具身领域的真机评测基准都有哪些?

01 ManipArena
推出时间:2026年3月
推出机构:中山大学、自变量机器人、MBZUAI 等。
ManipArena 提供了 20 个真机任务(包括 5 个初赛任务和 15 个决赛任务,涉及执行推理、语义推理、移动操作三种任务类型)、10812 条高质量遥操作轨迹,并通过独特的绿幕可控环境和分层 OOD 评估设计,构建了一个可以精确诊断模型泛化能力的科学化评测框架。
02 ManipulationNet
推出时间:2026年3月
推出机构:莱斯大学、麻省理工学院、清华大学等全球多所机构联合提出。
ManipulationNet以 "标准化硬件套件+分布式客户端-中心化服务端架构+双赛道任务设计" 的创新思路,打破了机器人操作领域"通用化落地" 困局:既通过统一的物理对象集和任务协议实现了真实世界任务的可复现,又借助去中心化提交、中心化验证的机制平衡了参与可及性与结果真实性,最终构建了首个支持全球规模化、持续性机器人操作基准评估的基础设施,为物理人工智能的科学进步与实际部署奠定了可持续的基础。
03 RoboChallenge
推出时间:2025年10月
推出机构:原力灵机Dexmal、Hugging Face联合推出。
定位:全球首个具身智能的大模型真机评测平台。
平台通过集成多款主流机器人(UR5、Franka Panda、Aloha、ARX-5)实现远程评测,为研究社区提供大规模、标准化、可复现的测试环境。
04 EAI Bench
全称:具身智能基准测试方案(Embodied Artificial Intelligence Benchmark,简称" EAI Bench")
推出时间:2025年4月
推出机构:中国信通院、上海人工智能实验室、北京航空航天大学、西安交通大学、国地共建具身智能创新中心,等。
定位:首个面向产业的具身智能基准测试方法。
EAI Bench的核心内容包括测试场景、测试任务库和评价指标三个部分。场景上,主要面向巡检员、服务员、清洁员、搬运工、导购员五种场景;任务上,针对移动类、操作类、移动+操作类三类任务,开展多维能力测试和任务难度分级测试;指标上,以任务执行效率和成功率为指标,聚焦端到端的任务执行能力。
05 EIBench
全称:"求索"人工智能国家标准评测基准体系3.0------具身智能测评基准
推出时间:2025年11月
推出单位:中国电子技术标准化研究院。
具身智能测评基准EIBench聚焦数据格式、具身智能大模型、可信赖等方向形成测评指标体系、测试环境与自动化工具。数据方面,开展数据集格式符合性评估,推动打造统一数据格式;模型方面,面向视觉-语言-动作模型(VLA)和视觉-语言模型(VLM)形成标准化评测流程、综合任务库和一套完整的测试指标,实现可复现、可量化的公平评测。
以上具身智能真机评测基准的相关信息可在『具身智能之心-开源知识库社区』中查看。更多内容持续更新中... ...
『具身智能之心-开源知识库社区』飞书链接:
https://mx77v4s54co.feishu.cn/wiki/space/7599965572918414554
重磅!
VLA+RL方向首个系统教程来啦!Online RL/Offline RL/test time RL等~
推荐阅读
我们用低成本的机械臂完成pi0/pi0.5/GR00T/世界模型等VLA任务~
VLA/VLA+触觉/VLA+RL/具身世界模型等!具身大脑+小脑算法与实战全栈路线来啦~
Diffusion Policy在具身智能领域是怎么应用的?为什么如此重要?