论文笔记（九十三）ManipulationNet: Benchmarking

ManipulationNet: Benchmarking Real-World Robot Manipulation at Scale through Physical Skill Challenges and Embodied Multimodal Reasoning

文章概括
摘要
[1 Introduction](#1 Introduction)
- [1.1 长期的需求和努力](#1.1 长期的需求和努力)
- [1.2 Challenges and gaps](#1.2 Challenges and gaps)
- [1.3 Rethinking the paradigm (理论框架、研究模式或思维范式) of manipulation benchmarking](#1.3 Rethinking the paradigm (理论框架、研究模式或思维范式) of manipulation benchmarking)
- [1.4 Benchmarking real-world robotic manipulation at scale](#1.4 Benchmarking real-world robotic manipulation at scale)
[2 结果](#2 结果)
- [2.1 基准评测协议](#2.1 基准评测协议)
- [2.2 Server--Client Mechanism](#2.2 Server–Client Mechanism)
- [🧭 一句话总结：](#🧭 一句话总结：)
- [🧩 整体逻辑图（概念层级）](#🧩 整体逻辑图（概念层级）)
- [2.3 Physical Skills Track](#2.3 Physical Skills Track)
- [2.4 Embodied Reasoning Track](#2.4 Embodied Reasoning Track)
[3 讨论](#3 讨论)
[4 Materials and Methods](#4 Materials and Methods)

文章概括

引用：

bash 复制代码

markup 复制代码

主页： https://manipulation-net.org/
原文： https://manipulation-net.org/MNet_preprint.pdf
代码、数据和视频： https://github.com/ManipulationNet/mnet_client

系列文章：

请在《《《文章》》》专栏中查找

宇宙声明！

引用解析部分属于自我理解补充，如有错误可以评论讨论然后改正！

摘要

灵巧操作使机器人能够有目的地改变物理世界，将其从被动的观察者转变为在非结构化环境中主动作用的智能体。这种能力是"物理人工智能"的基石。尽管在硬件、感知、控制和学习方面经过了数十年的发展，但由于缺乏被广泛采用的标准化基准，通用操作系统的研究进展仍然是零散的。其核心挑战在于如何协调真实世界的多变性与严格科学评估所需的可重复性和真实性之间的矛盾。

为了解决这一问题，我们提出了ManipulationNet------一个由社区共同管理的全球性基础设施，用于托管真实世界的机器人操作基准任务。ManipulationNet通过标准化的硬件套件提供可重复的任务设置，并通过统一的软件客户端实现分布式性能评估，该客户端可实时发送任务指令并收集基准测试结果。作为一个持续且可扩展的基础设施，ManipulationNet将基准任务划分为两个互补的分支：

1）物理技能赛道（Physical Skills Track），用于评估低层次的物理交互能力；
2）具身推理赛道（Embodied Reasoning Track），用于测试高层次的推理与多模态理解能力。

这种设计促进了一个真实世界能力与技能相互连接的系统性网络的发展，为通用机器人操作奠定了道路。通过在真实世界中实现可规模化的可比操作研究，该基础设施为衡量长期科学进展和识别可实际部署的机器人能力建立了可持续的基础

1 Introduction

机器人操作是指机器人通过与环境中物体进行物理交互来实现特定目标的过程(1)。

这种能力包括广泛的基础技能(2)，如抓取、释放、插入、推、拉等，在制造业、物流、医疗等多个领域中都至关重要。虽然操作的本质是物理性的，但其实现同样依赖于感知、推理和多模态语义理解等认知能力(3)，这些能力使机器人能够理解环境、掌握任务约束并将已有技能推广至新情境。然而，尽管经过数十年的努力，灵巧操作仍主要局限于结构化环境(4)，机器人在非结构化与动态环境中仍表现欠佳。

根据国际机器人联合会（IFR）统计，全球已有超过430万台工业机器人在运行(5)，但其成功主要集中在受控工厂中；而服务机器人尽管在2023年销量增长30%(6)，仍局限于如配送、运输等避免复杂接触的任务。因此，开发稳健的操作能力是实现机器人市场增长与改善人类生活的关键。在这一过程中，基准（benchmark） 起着至关重要的作用。

基准将孤立的研究成果转化为可积累的科学进展。如计算机视觉中的ImageNet(7)与自然语言处理中的GLUE(8)等经典基准，通过提供统一的评测标准，推动了整个领域的集体创新。在人工智能的广阔领域中，机器人学亟需类似的大规模标准化基准体系。然而，与基于静态数据集的任务不同，机器人操作的评测需要与物理世界进行动态交互，这导致任务、物体和情境的多样性与复杂性。为应对此问题，操作基准应提供标准化的任务配置，并通过操作结果直接评估系统性能。

现有的努力主要分为基于仿真和基于现实两类。仿真评测具有可重复和可扩展性，但由于对接触动力学的近似不完美，其结果难以准确反映真实操作能力。现实评测虽然具备物理真实性，但通常需要集中式装置以保证一致性，因可访问性有限而难以推广。在此背景下，我们定义任务真实性为：参与者需在规定协议下，使用相同物体执行相同任务，并如实报告结果。现实性指评测在真实世界中进行，而可访问性则指研究社区能广泛参与。然而，长期以来这三者之间的失衡，阻碍了被广泛认可的机器人操作基准的诞生。因此，即便是看似相同的任务，研究成果之间仍缺乏一致性与可比性。

为打破当前的瓶颈并推动机器人操作领域的整体进展，我们提出了 ManipulationNet------一个由全球社区共同管理的框架，旨在在现实性、真实性与可访问性之间实现平衡，从而支持大规模的真实世界机器人操作基准化评测。ManipulationNet 提供了一个持续且可扩展的基础设施，用于支持全球范围内可比较的机器人操作研究。

该框架采用集中式与分布式相结合的混合架构：

（1）在全球范围内分发标准化的物体集与实验协议，以实现可重复的任务设置；

（2）通过本地提交客户端（mnet-client）向中央服务器（mnet-server）提交评测结果，实现分布式数据收集的同时保持任务真实性；

（3）提供集中式性能评估，以确保结果的公平性与可比性。

研究者因此可以在任意时间与地点，对共享任务上的自定义操作系统进行基准测试。为便于表述，本文将本地提交客户端记作 mnet-client，中央服务器记作 mnet-server。

ManipulationNet 所托管的任务均具有诊断性质，每项任务都针对某一特定技能或能力。如图1所示，该框架将任务划分为两个互补的赛道：

物理技能赛道（Physical Skills Track） 用以评估机器人在真实物理约束下的稳健传感--运动能力；
具身推理赛道（Embodied Reasoning Track） 则关注推理与多模态理解，评估机器人如何将自然语言指令与视觉输入转化为适用的操作行为。

图1 展示了 ManipulationNet 框架的总体结构。框架将任务划分为物理技能赛道与具身推理赛道，每个任务均具有诊断功能，用于评估基础操作能力。本文以 Peg-in-Hole装配任务（第2.3节）为物理技能赛道代表，以方块排列任务（第2.4节）为具身推理赛道代表。

通过在物理与认知两个层面整合任务，ManipulationNet 构建了一个互联的能力网络，揭示了物理技能如何构成更复杂的行为、认知能力如何落实于真实交互，以及知识如何在任务与情境之间迁移。这种互联式设计为实现通用机器人操作铺平了道路。

在短期内，ManipulationNet 致力于推动围绕统一基准的集体研究；中期将拓展至更广泛的操作任务；长期目标则是建立持续的机器人能力记录体系。这一体系不仅能识别具备实际部署潜力的系统，还能追踪领域发展轨迹、揭示能力差距，并为未来研究确立优先方向。通过透明且可积累的记录机制，ManipulationNet 为科学探索与现实应用的可信落地奠定了坚实基础。

1.1 长期的需求和努力

将机器人操作的基准化作为开放问题，已历经四十年持续关注(9,10)。其目标是在明确的任务设置下，通过评估操作结果对系统性能进行系统化测量。如图2所示，既有努力主要分为三类：标准化物体集（常配合任务协议）、现实世界竞赛以及基于仿真的基准。这些互补路径共同塑造了本领域，并为后续进展奠定基础。

物体集与任务协议是操作研究的基本要素，其标准化是实现可重复、可比较研究的关键。哥伦比亚抓取数据库(11)率先提出合成物体模型库；这些模型基于普林斯顿形状基准(12)，并标注抓取候选及质量指标以支持仿真评估(13)，从而为仿真抓取算法的系统比较奠基。为缩小与物理世界的差距，KIT数据库(14)提供了日常物体的高精度3D扫描；随后，YCB物体与模型集(15)将实物与数字模型配对为可分发套件，兼顾仿真与真实环境研究。YCB此后扩展至多种任务协议，包括手部设计(16,17)、双手操作(18,19)、抓取鲁棒性(20)与规划(21,22)、手内操作(23)、拾取-放置(21,24,25)、空中操作(26)、杂乱抓取(27)、魔方操作(28)与装配任务(29)。NIST则通过标准化装配任务板（ATB）及协议(30)推进了物理基准化，使接触密集型制造技能具备可比性。其他相关工作还提出了面向特定任务的物体集，如6自由度位姿估计(31)、功能性操作(32)与家具装配(33)。总体而言，标准化物体集与协议使跨系统的客观评测成为可能。

现实世界竞赛长期以来充当事实上的基准，通过提供共同任务与集中化评估设施来促进比较研究。1997年发起的RoboCup(34)确立年度迭代竞赛模式，并扩展出RoboCup@Home(35)与RoboCup@Work(36)，操作能力在其中居核心地位。产业推动的Amazon Picking Challenge (APC)(37)面向仓储式抓取与存放；DARPA机器人挑战赛(38)强调灾害响应中的关键操作（驾驶、旋阀、工具操作、物料搬运）。RoCKIn项目(39)通过家庭(40)与工业(41)场景中的标准化任务，将竞赛与结构化基准化紧密连接，实现可复现评估。EuRoC(42)结合仿真资格赛与真实工业场景实地测试。学术界也组织专项竞赛(43)，如RGMC(44)，评测覆盖服务与工业场景的多样抓取与操作任务。Real Robot Challenge(45)、TOTO基准(46)与OCRTOC(47)提供远程访问的同构机器人平台以支持集中策略评估。这些活动在真实条件下验证系统，突出鲁棒性、泛化性与现实可用性。

基于仿真的基准依托物理引擎(48--51)在严控条件下实现可扩展评测。早期里程碑OpenGRASP(52)提供了抓取与灵巧操作的完整环境，验证了虚拟评估的可行性；VisGraB(53)则面向非结构化环境中的未知物体抓取，评估视觉抓取规划器。随着机器人学习兴起，SURREAL(54)构建了可扩展的分布式强化学习基础设施，提供可复现的操作基准任务；RoboSuite(55)在此基础上以模块化框架支持灵活任务构建与可复现实验。任务多样性也通过Meta-World(56)与RLBench(57)得到拓展：前者提供数十种多任务/元强化学习任务，后者强调视觉引导操作并提供大量示范以支持模仿学习。后续研究转向更强具身化与更广泛泛化：BEHAVIOR(58,59)关注真实家庭活动中的长程目标执行；ManiSkill(60,61)强调几何多样性与类内变化。跨越物理交互，Calvin(62)与ALFRED(63)聚焦语言条件下的操作序列，LIBERO(64)将范式扩展至终身学习，评测持续适应与知识迁移。总体而言，这些框架呈现出从可行性验证走向可扩展、多模态与长时程评测的演进，并在可控条件下实现大规模实验。

图2 图注（中文）：现有机器人操作基准化工作的"不可能三角"：既有方案可分为三类------带任务协议的标准化物体集、现实世界竞赛与基于仿真的基准。每一类在理论上最多只能兼顾三要素中的两项（现实性、可访问性、真实性），因此尚无方法能在大规模真实世界基准中三者兼得。

1.2 Challenges and gaps

尽管既有基准化努力推动了领域进展，但其局限反复显现。标准化物体集可为可复现实验奠定共同基础，配合任务协议还能清晰界定应试内容；然而，任务设置层面的可复现并不等于任务真实性，后者要求核验对协议的一致遵循与结果报告的完整性。实践中，当基准仅以论文或视频呈现时，难以确保严格遵循与非选择性报告；若缺乏正式评估机制，即便使用标准化物体，所得结果的可比性仍然受限。

相对而言，现实世界竞赛可保证任务真实性并提供可比结果，因为系统在同等条件下被评测且结果可被直接观察。但此类活动资源投入巨大，硬件、差旅和后勤成本高，因而难免排除许多潜在参与者；同时其地理集中与时间受限特征，使参与被限定在特定地点和时段；一次性特征也使条件难以复刻，限制了赛后长期可复现性。因此，竞赛虽有价值，但难以提供构建面向大规模、包容性基准所需的可访问性与连续性。

为回应可访问性与真实性的诉求，基于仿真的基准以低成本、可控条件实现可扩展实验；但其依赖简化模型与物理引擎，限制了现实性，无法充分捕捉真实操作的复杂性与变异性。仿真中的传感器信号亦被理想化，缺少物理系统固有的噪声、漂移与标定难题；即便大规模场景亦难以再现非结构化环境中接触不确定性与交互动力学的开放式多样性。操纵"原子"不等同于操纵"比特"：仿真中的强表现常常高估系统在真实环境中的可靠能力。由此可见，仿真基准虽具规模优势，却欠缺可信评估真实操作能力所需的现实性。

总而言之，现有途径虽各自推动了机器人操作的发展，但仍存在长期性问题：缺乏正式评估时，物体集的任务真实性难以保证；现实世界竞赛在广泛参与方面可访问性不足；而仿真为可扩展性所限，往往牺牲现实性。正如表1所示，这些局限性表明需要新的范式设计，在面向全球研究的规模要求下，同时协调现实性、可访问性与真实性。

1.3 Rethinking the paradigm (理论框架、研究模式或思维范式) of manipulation benchmarking

现有基准所面临的挑战表明，未来的操作基准不在于偏重某一类别，而在于设计一种同时平衡集中化需求与去中心化优势的范式。集中化对于保证真实性不可或缺，这在竞赛中已有体现：任务受到严格控制，结果可被社区直接观察。与此同时，去中心化提升了可访问性，使全球研究者无需高昂成本与复杂后勤，即可在各自环境与机器人系统中灵活开展基准评测。同时，现实性同样不可或缺：若要成为可信的真实世界操作能力度量，基准必须如实反映现实评测的复杂性。因此，挑战在于在保持现实性的前提下，将集中化的严谨性与去中心化的包容性加以融合。

在此基础上，有必要回到机器人操作基准化的本质，以辨析何时必须集中、何时可选择性地去中心化。从本质上说，操作基准通过观察机器人执行明确定义任务的过程与结果来评估系统。由于评估对象是机器人系统，该过程可归结为两个关键变量：任务设置如何定义以及性能如何观测。这两个维度从根本上决定了基准的真实性、可访问性与现实性。

标准化的任务设置是实现可比基准的基础。为支持大规模参与，任务设置必须以去中心化方式实现可复现：同一任务应能被任意研究团队在任意地点、任意时间执行。同时，评估必须在可访问性与真实性之间取得平衡。尽管性能数据可在本地分散收集，但结果必须在中心端依据统一协议与度量进行验证，以确保其可信与可比。综上，可复现的任务设置与可核验的评估共同构成规模化操作基准的基础。

此外，任务选择对于分层识别操作能力的局限至关重要。有效的基准依赖短小、定义清晰、难度分级的任务，使结果易于比较、失败可追溯至明确原因。此类任务兼具高诊断价值与跨系统可比性。当基础技能与能力得到可靠基准化后，便可系统性地组合为更复杂、长时程且更贴近现实条件的任务。在这种分层范式下，精挑细选的基本单元任务用于精准定位能力，其组合则将评估延展至更强的现实性与实践相关性。

最后，基准的设计需具备足够的深度，以在一段时间内保持其相关性。过快被攻克的任务容易迅速过时，只能提供当前能力的瞬时快照。相较之下，具有难度阶梯的耐久任务可提供长期参照，既能记录进展，又能通过设定有意义的长期目标来推动领域发展。

1.4 Benchmarking real-world robotic manipulation at scale

基于上述原则，ManipulationNet 被设计为一个托管多样化任务的框架，用于在大规模上对真实世界的机器人操作进行基准评测。该框架区别于既有范式之处在于同时平衡可访问性、现实性与真实性。如图3所示，这种平衡通过以下方式实现：1）标准化、可复现的任务设置；2）服务器---客户端架构以支持分散式性能提交；3）集中化的结果核验。重要的是，ManipulationNet 由专门的委员会治理，负责监督任务选择、资源分发与评测公正性。该框架面向广谱任务设计，支持构建并发展一个相互联通的操作能力网络。本节余下内容将详细说明 ManipulationNet 如何在大规模上将原则化的任务标准化与可核验评测具体落地。

图3： ManipulationNet 的整体运行结构。标准物体集由中心化设计与制造，以确保任务设置的可复现性。注册后，组织委员会会分发标准化物体集，使各研究团队能够使用其定制机器人系统随时随地执行任务，并通过 mnet-client 上报表现。所有提交结果将由中心端依据统一指标进行评估，为全球范围提供可信且可比较的性能评测。

ManipulationNet 可在大规模范围内提供标准化的任务设置。每个任务设置由两部分互补要素构成：物理物体集与使用该物体集的任务协议。既有工作(15,30)表明，分发统一的物体有助于提升跨地点的可比性，并扩大参与范围。在此基础上，ManipulationNet 将物体集定义为执行操作评测所依托的实体器件。为确保长期可获得性与一致质量，这些器件由中心化生产并全球分发。每套物体集都配有一份协议，明确初始条件、操作目标与成功判据。这种双重规范使评测不仅在相同物体上进行，也在相同任务定义下进行。关键在于，这些设置可在任意地点、任意时间复现，从而消除传统上限制可复现性的时空壁垒。综合来看，物体集+任务协议通过全球分发带来可扩展性，并提供诊断功能，以支持多样机器人系统之间的可比研究。

ManipulationNet 能在大规模上评估真实可信的任务表现。尽管可借助标准化物体与统一协议有效扩展任务设置，但要在大规模下实现真实可信的评估仍更具挑战。从本质上讲，任务评估即将明确定义的度量应用于观测到的操作表现，以核验证目标达成与协议遵循。纯集中式评估可通过直接观测将真实性最大化，但受时间与地点所限。相反，纯去中心化评估虽能扩大参与，却易引发测量不一致或选择性报告的担忧。为调和此类权衡，ManipulationNet 将性能收集与结果核验解耦：试验通过 mnet-client 在本地分散收集，最终由中心端集中核验。该流程由部署在互联网上的 mnet-server 协调，其与分布式 mnet-client 实时连接。一旦 mnet-client 启动，试验即刻在 mnet-server 上注册备案，以防止挑选性上报。在执行过程中，任务状态会被持续记录；完成后，mnet-client 会提交视频记录与执行元数据。系统通过设计保障完整性：视频不可预录或篡改，且执行状态将实时绑定至基准协议。提交结果随后由治理委员会审核，以确保基准测试表现对全社区而言可信、可复现且可比较。通过这种方式，ManipulationNet 建立起分散上报 + 集中审核的标准化评估机制，在统一评测实践的同时平衡真实性与可访问性。

超越单个任务层面，ManipulationNet 旨在构建一个由各类能力与技能组成的网络。该框架从原始（primitive）任务出发------它们被定义为简短且具有代表性的任务，每个任务只需一种特定技能或能力即可完成。由于避免了不必要的异质性与复杂性，原始任务天然具备诊断性：结果清晰明确、失败模式可追溯、且性能评估所需的主观判断最小化。此外，原始任务也可作为实现可扩展性的构件单元。一旦这些任务被可靠地基准化，它们便可被系统性组合为长时程任务，更贴近非结构化环境中对通用操作的真实要求。受 NIST 装配任务板（ATB）的启发(30)，ManipulationNet 的初始版本将侧重于装配导向的技能（见图4），包括：插销入孔（peg-in-hole）、穿线与紧固（threading and fastening）、皮带走线与张紧（belt routing and tensioning）以及线缆管理（cable management） 等。随着时间推移，该框架将不断扩展以纳入更多样的任务，迈向对通用机器人操作的更为全面的覆盖。

总之，ManipulationNet 建立了一个统一的基准框架，将标准化任务设置、可扩展且真实可信的评估以及覆盖多样物理技能与认知能力的分层进阶有机整合。通过将性能收集与中心核验解耦，并将所有任务锚定在可复现的"物体--协议"对上，框架同时确保了不同机器人系统之间的可访问性与可比性。

图4：NIST 装配任务板（Assembly Task Boards, ATB）。NIST ATB 覆盖了工业场景中常见的多种原始操作技能（详见文献(65)），包括插销入孔（peg insertion）、穿线与紧固（threading and fastening）、皮带走线与紧固（belt routing and fastening）以及线缆管理（cable management）。

2 结果

在下文中，我们将阐述 ManipulationNet 的实现细节，把其高层设计转化为可实际运行的基准评测系统。框架内托管的所有任务均遵循统一的提交协议执行，该协议依托服务器---客户端基础设施。我们首先介绍这一提交协议：它将物体集与 mnet-client 的使用相结合，以实现对真实世界操作任务的可比评估。随后，我们将详述服务器---客户端机制，该机制在提升可访问性的同时，尽量降低对网络条件的依赖并确保结果完整性。最后，我们以插销入孔装配任务作为物理技能赛道示例，以方块排列任务作为具身推理赛道示例。

2.1 基准评测协议

本小节将给出适用于 ManipulationNet 所有托管任务的一般性基准评测协议（见图5）。该通用协议是一个独立的高层流程，用于性能上报与任务指令下发。在准备阶段，参与者首先接收标准化物体集，并依据基准任务对其机器人系统进行配置。为确保无偏观测，需使用独立于机器人硬件的相机连接 mnet-client，对执行过程进行记录。当 mnet-client 启动后，该次试验会立即在 mnet-server 上注册；并且每位参与者在给定周期内会被分配有限的试验次数，以防止通过反复尝试造成的选择性偏差。

图5：适用于所有托管任务的一般性协议概览。研究团队一旦收到实体物体集，便可在本地结合其定制机器人系统，以可复现的方式完成任务配置。为对系统性能进行正式基准评测，唯一的附加要求是在任务执行前，将外部相机连接至 mnet-client 并启动。随后，性能数据会传输至 mnet-server，由官方评审依据统一指标进行评估，以确保各次提交之间的可比性。在该协议下，操作性能通过分布式 mnet-client 以去中心化方式采集，而最终核验由中心端统一完成。

在执行阶段，mnet-server 首先生成一个随机的一次性提交代码，并将其发送至 mnet-client。参与者必须将该代码展示在相机视野内，以将录像唯一绑定到本次会话，从而确保所有事件均发生在 mnet-client 初始化之后。自此之后，mnet-client 与 mnet-server 保持安全稳定的连接：1）mnet-client 实时向 mnet-server 报告任务执行状态；2）mnet-server 向 mnet-client 下发任务指令，内容可包括语言/视觉提示、任务特定指令等。任务执行完成后，mnet-client 会将录制视频与执行日志传输至 mnet-server。

提交的实验表现将由 ManipulationNet 委员会的评审人员在中心端进行核验。如下一小节所述，服务器---客户端机制确保所提交视频与执行日志的完整性。随后，集中式评估会对所有提交一致地应用任务特定指标，以确保客观性。最后，在参与者同意的前提下，核验通过的结果将发布于 ManipulationNet 官方平台，为社区建立透明且可比较的基准记录。

bash 复制代码

【准备阶段】
 ↓
参与者收到标准化物体集  →  配置自己的机器人系统
 ↓
连接独立相机 + 启动 mnet-client
 ↓
mnet-client 在 mnet-server 上注册一次实验任务
（中央记录你这次实验）

【执行阶段】
 ↓
mnet-server → 给你发送一个随机的一次性验证码
 ↓
你必须把验证码展示在摄像头画面中
（确保视频真实、不能事后伪造）
 ↓
mnet-client ↔ mnet-server 建立安全通道
  ├─ 客户端实时上报任务执行状态
  └─ 服务器实时下发任务指令（语言提示、视觉提示、动作要求等）
 ↓
任务执行完毕
 ↓
mnet-client 上传执行视频 + 日志文件 到 mnet-server

【评审阶段】
 ↓
ManipulationNet 评审委员会
在中央服务器端核验视频与日志的真实性与完整性
 ↓
统一指标计算得分 → 发布官方排行榜

⚙️ 分阶段解释
1️⃣ 准备阶段（Preparation Stage）

目的： 确保所有实验在"可比较"的标准条件下进行。

主要动作：

官方给每个团队寄送标准化物体集（统一的积木、杯子、箱子等）。

各研究团队用自己定制的机器人系统完成任务配置。

为避免作弊（例如通过机器人内部摄像头修改画面），要求：

使用一台独立的外部相机连接 mnet-client，来全程拍摄机器人执行过程。

当 mnet-client 启动后，这次试验就在中央服务器上注册（相当于"官方记账：某团队开始了一次实验"）。

每个团队在一定时间内只允许有限次数的实验提交，避免反复尝试"挑最好的一次"导致偏差。

2️⃣ 执行阶段（Execution Stage）

核心思想：

服务器和客户端保持在线同步，确保实验全过程可验证、无篡改。

步骤：

生成随机一次性提交码（one-time submission code）

服务器（mnet-server）生成一个唯一随机码；

发给客户端；

研究者必须将该码展示在相机画面中（比如贴在机器人前面或者投在显示屏上）；

这样视频中的实验就和这一条任务绑定在一起，保证真实性。

建立安全连接（secure connection）

mnet-client 和 mnet-server 建立加密通道；

双向通信实时进行：

客户端→服务器：上报机器人执行状态、时间戳、动作进展；

服务器→客户端：发送任务指令，如语言提示（"抓取蓝色物体"）、视觉提示（目标图像）等。

任务执行

本地机器人执行任务；

相机全程拍摄；

客户端持续上传状态数据；

最终将录像和执行日志发送回服务器。

3️⃣ 核验与评估阶段（Verification & Evaluation Stage）

谁来核验？ ManipulationNet 官方评审委员会。

如何核验？

在中央服务器端统一进行：

检查视频与日志文件的时间戳、随机码是否一致；

确认实验确实发生在 mnet-client 初始化之后；

验证视频未剪辑、未重复上传；

然后根据任务定义的统一指标（例如抓取成功率、操作时间、稳定性等）自动计算性能指标。

最终结果：

通过核验的实验结果会被：

上传到官方平台；

对外公布；

构成公开可比较的基准（benchmark）数据。

2.2 Server--Client Mechanism

为在去中心化参与与中心化信任之间取得平衡，ManipulationNet 采用服务器---客户端机制，在任务提交中同时保证可访问性与可核验的完整性。每次提交都包含覆盖任务初始化、执行与完成全过程的完整视频，并辅以实时执行日志与部分关键帧，这些数据将传输至 mnet-server。为尽量降低带宽需求，mnet-client 在任务执行期间不进行原始视频的实时流式传输。取而代之的是，仅传输轻量级元数据（如任务事件、状态消息、以及视频帧的加密哈希），从而在受限网络条件下亦可保持可访问性。

为保证每次试验的真实性，除要求一次性提交代码始终在视频中可见外，mnet-server 还会在任务执行期间随机发起请求。对于每个请求，mnet-client 会在本地提取相应视频帧、计算其哈希，并实时将哈希值发送至 mnet-server。同时，mnet-client 需实时上报任务状态至 mnet-server，以便事后按时间戳将视频内容与已上报事件进行交叉核对。机器人系统与 mnet-client 之间的通信通过机器人操作系统（ROS）的services 与 topics 实现。任务完成后，mnet-client 会对整段视频计算最终哈希并发送至 mnet-server 以进行完整性校验，随后才压缩并上传完整提交包（包括完整视频、选取帧与元数据）。由于所有与完整性相关的数据已实时记录，即便在网络条件较差时，上传过程耗时更长也不会影响完整性保障。

当 mnet-server 接收提交后，组委会将基于三条标准进行校验：

1）录制视频中清晰展示一次性提交代码；
2）上传的视频与帧需与先前在 mnet-server 登记的哈希完全匹配；
3）视频时长与内容需与已上报的任务状态及各时间点的关键帧相一致。

由于哈希函数对任意一个字节的变化都极为敏感，若上传文件产生的哈希值一致，则可验证文件未被篡改。仅在通过上述完整性校验之后，才会应用任务特定的性能指标，以确保跨系统评估的客观与可比。

通过该机制，ManipulationNet 确保每次性能提交都与其注册试验唯一绑定、在标准化任务设置下完成，且既能防预录、又防事后篡改，并可被治理委员会完全核验。其结果是形成一套安全、带宽高效的协议，在广泛可访问性与严格完整性保障之间实现平衡。

这是一个 "在去中心化执行下实现集中可信核验"的过程。即：实验在各地本地执行（去中心化），但通过 mnet-client 与 mnet-server 的双向验证机制，系统能保证每次实验结果真实、完整、不可篡改、可复现。

bash 复制代码

研究者本地（mnet-client）         ↔        官方服务器（mnet-server）
------------------------------------------------------------
1️⃣ 本地执行任务                      | 生成随机验证码
2️⃣ 相机录制全过程                    | 发送实时随机校验请求
3️⃣ 计算并发送视频帧哈希              | 校验帧哈希与时间戳匹配
4️⃣ 上报任务状态/事件                | 记录元数据与时间序列
5️⃣ 任务结束后上传压缩包              | 核验视频哈希一致性与时长
                                     ↓
                           中心端统一性能评估与记录

非常好，这一节（2.2 Server--Client Mechanism ）描述的是 ManipulationNet 评测体系的核心技术机制 ------也就是"服务器--客户端双端验证系统"，它是整个分布式评测协议的安全与信任基础。

你可以理解为：

这一节讲的是 ManipulationNet 如何防作弊、确保结果可信，即"怎么保证上传的实验视频和日志真的就是你机器人当时执行的那一次，而不是后期伪造或篡改的"。

下面我帮你完整地、层次化地拆解。

🧭 一句话总结：

这是一个**"在去中心化执行下实现集中可信核验"的过程。
即：实验在各地本地执行（去中心化），
但通过 mnet-client 与 mnet-server 的双向验证机制，
系统能保证每次实验结果真实、完整、不可篡改、可复现**。

🧩 整体逻辑图（概念层级）

复制代码

研究者本地（mnet-client）         ↔        官方服务器（mnet-server）
------------------------------------------------------------
1️⃣ 本地执行任务                      | 生成随机验证码
2️⃣ 相机录制全过程                    | 发送实时随机校验请求
3️⃣ 计算并发送视频帧哈希              | 校验帧哈希与时间戳匹配
4️⃣ 上报任务状态/事件                | 记录元数据与时间序列
5️⃣ 任务结束后上传压缩包              | 核验视频哈希一致性与时长
                                     ↓
                           中心端统一性能评估与记录

1️⃣ 注册与初始化阶段

当你启动 mnet-client 时：

它向 mnet-server 注册本次试验。 * 服务器分配一个唯一的一次性提交代码（One-Time Submission Code）。

这段代码必须被你显示在摄像头画面中（例如贴在机器人旁边的屏幕上）， 👉 确保该视频"肉眼可见"地绑定到这次实验。

2️⃣ 实验执行阶段

这是机制的核心部分。

(1) 实时双向通信

机器人系统（通过 ROS） → mnet-client：上报执行状态（如当前阶段、目标达成情况）。

mnet-client → mnet-server：持续传输任务事件与状态消息。

(2) 随机验证请求

在你执行任务时，mnet-server 会随机发送请求（例如："请立即返回第 N 帧画面的哈希值"）。

mnet-client 在本地提取对应视频帧；

计算该帧的加密哈希（例如 SHA-256）；

将哈希值发回服务器。

服务器用这些哈希与先前登记的帧哈希比对，确认视频帧确实存在于当前录像中，不能伪造。

(3) 轻量化传输

为了节省带宽，执行时并不上传整个视频；

只传输：

轻量级元数据（metadata）：任务事件、状态消息；

加密哈希：用于后续完整性验证；

这样即使网络慢，也不会影响实验验证。

这使得系统能在网络较差环境下正常运行，而不丢安全性。

3️⃣ 实验完成后

任务完成后，mnet-client：

计算整个视频文件的全局哈希值；

将该哈希值发送至服务器登记；

然后再压缩并上传完整提交包：

包含完整视频；

部分关键帧；

元数据（事件日志、状态序列、时间戳等）。

这时，服务器已经有了：

全程采集到的实时哈希；

每个时间点的状态记录；

最终文件的哈希登记。

所以哪怕上传花几个小时，也不会影响完整性验证，因为所有"验证用的数据"早已实时上报、写入服务器日志。

4️⃣ 服务器端验证阶段

服务器接收上传包后，会逐条核对：

核验标准含义

① 视频中必须显示一次性提交码 确认该视频确实来自注册的那次实验。

② 上传视频帧的哈希必须匹配 检查文件在上传过程中未被修改。

③ 视频时长与任务日志一致 确认时间线和任务事件对应，不存在剪辑或插帧。

只要任意一项不一致，系统就会拒绝该提交。

核验标准	含义
① 视频中必须显示一次性提交码	确认该视频确实来自注册的那次实验。
② 上传视频帧的哈希必须匹配	检查文件在上传过程中未被修改。
③ 视频时长与任务日志一致	确认时间线和任务事件对应，不存在剪辑或插帧。

2.3 Physical Skills Track

物理技能赛道用于评测操作中的基础交互技能，关注机器人如何在物理约束下自适应且有目的地达成指定目标。本小节以一个经典但未被完全解决的接触密集型操作任务------插销入孔装配（peg-in-hole）------作为示例。 该任务要求系统在真实世界的接触动力学下具备强鲁棒的适应与泛化能力，以实现高精度目标。

作为物体集的装配销与装配板在几何形状与间隙（clearance）上做了系统化变化，以全面评估系统在递增插入难度下的泛化能力。如图6-A所示，销子集合包含五种不同形状，从高度对称到高度不对称的几何形式。每种形状对应四档间隙：3 mm、1 mm、0.1 mm、0.02 mm，覆盖从宽松到极紧配合的范围。鉴于最小间隙极小，所有装配销与装配板均由中心化制造，制造公差控制在20微米以内，以确保高标准的物理约束一致性。如图6-B所示，为进一步提升感知难度，装配板采用透明亚克力材料制造。透明表面对视觉系统是公认难点；我们假设，能稳健处理透明材料的系统更容易泛化到不同颜色与纹理的物体。上述设计既保证可复现性，又同时考查感知鲁棒性与物理鲁棒性。

图6：A. 装配销与装配板的设计文件；B. 其实物制造示例。设计包含五种形状（含对称与不对称）。每种形状设置四档间隙，公差为 0.02 mm、0.1 mm、1 mm、3 mm。装配板采用透明亚克力制造，制造公差20 微米以内，以引入感知与物理挑战；销子采用不锈钢加工，以确保强度与耐久性。

任务执行受统一任务协议约束，以确保各次提交的可比性。插入操作必须按固定顺序执行为一系列子任务。首先，按间隙大小设定优先级，从大到小依次进行：大间隙先于小间隙。其次，在每档间隙内，按几何复杂度排序，由简到繁依次进行。每个子任务完成或被跳过后，系统必须通过 mnet-client 向 mnet-server 上报状态。这种标准化上报保证所有提交遵循一致结构，从而实现客观的跨系统比较。

为适配不同系统能力，基准定义了三种执行模式。全自主模式：机器人在无人干预下完成全部流程，包括启动、完成与状态上报。人机协同模式（human-in-the-loop）：人类可提供高层协助（如指示跳过子任务、或确认插入成功），但不能直接下达低层控制指令。遥操作模式（teleoperation）：允许人类直接控制机器人执行装配。通过区分上述模式，基准既可覆盖广谱系统，又能清晰界定被评估的自主程度。

关于硬件设计、任务指标与评测协议的更多细节，见 manipulation-net.org 的补充材料。通过上述设计，插销入孔基准能在几何、间隙、感知与自主性多维条件变化下，进行严格且可复现的系统评估。作为诊断性任务，它直接测试系统在接触密集的挑战条件下完成高精度插入的能力。在物理技能赛道中，插销入孔是更大任务组的一员，二者共同刻画支撑通用机器人操作的多样物理交互能力。

2.4 Embodied Reasoning Track

具身推理赛道从推理与多模态理解的角度评测操作能力，关注机器人如何将语言与视觉感知整合为可落地的物理动作。与对物理交互要求严苛的物理技能赛道不同，本赛道有意降低物理难度，以便在出现问题时隔离并诊断推理失败。作为代表性示例，我们选用高可变性任务------方块排列，以测试机器人系统如何将自然语言与视觉指令转化为可执行动作以实现给定目标。

如图7-A所示，物体集由五种颜色的彩色方块组成：{红、黄、橙、蓝、绿}，每种颜色各10块。所有方块在形状、尺寸与材料上完全一致。在评测过程中，操作系统需根据接收到的提示，在真实场景中复现指定的方块布局。该过程可能只涉及拿取---放置等简单操作。评测目标在于系统能将：1）语言提示；2）视觉提示；3）视-语联合提示，正确解析为明确目标与其动作序列。

图7：方块排列任务概览。A. 任务的物体集。在本任务中，机器人需规划并执行操作动作，依据 mnet-server 的指令完成方块布局；B. 语言提示示例；C. 视觉提示示例，默认要求复刻观察到的真实布局；D. 无遮挡的视-语联合提示示例；E. 包含遮挡的视-语联合提示示例，要求对支撑结构进行物理与空间推理，在满足颜色约束的同时保持布局稳定。

任务协议要求顺序执行10轮，且难度逐轮提升。每一轮包含同一难度等级下的三项独立任务，顺序如下：

1）语言提示：以自然语言给出目标布局，不提供视觉信息；
2）视觉提示：以图片呈现目标布局，不提供语言信息；
3）视-语联合提示：图像+自然语言描述联合给出目标布局。

例如，在语言提示中，简单指令可能要求将方块排成直线；更高级的指令可能要求三维结构：如"把三个蓝色立方体直线堆叠"，见图7-B。对于视觉提示，要求机器人依据图像所见即所得去搭建------即便图像仅是局部视图，见图7-C。机器人需推理支撑结构，以在真实世界实现物理稳定的布局。对于视-语联合提示，任务不能仅靠视觉或仅靠语言来完成，见图7-D、E。机器人必须融合两种模态信息才能推断出正确的布局，并据此生成恰当的动作序列。

难度等级基于以下因素定义：1）颜色理解；2）长时程任务；3）空间推理；4）物理常识/物理理解；5）由隐藏信息或抽象指令进行推断。据此，定义四个难度等级：

1）入门（entry）：任务尽可能简单，不涉及上述因素；
2）简单（easy）：需要基本推理，涉及其中1项因素；
3）中等（medium）：需要中等推理，涉及2--3项因素的组合；
4）困难（hard）：需要复杂推理，涉及4--5项因素的组合。

每个任务的成功以二元方式定义：最终布局是否满足给定提示（是/否）。在布局搭建过程中不允许人工干预，所有任务必须全自主完成。在每个任务的间隙，由人类恢复方块初始布局，准备下一条指令。

更多关于方块排列基准的细节可见 manipulation-net.org 的补充材料。按设计，方块排列任务在感知与物理条件较简单的情况下，提供严谨而轻量的多模态推理评估方式。作为诊断性基准，它评测系统对跨模态指令的理解与执行能力，同时最小化接触密集动力学带来的干扰。在具身推理赛道中，方块排列是更广泛任务组的组成部分之一，二者共同评测智能操作所需的推理与多模态落地能力。

3 讨论

ManipulationNet 旨在建立一个持久、透明、由社区驱动的框架，用于在大规模上对机器人操作进行基准评测。尽管本文的技术细节描述了其发布版本的设计与实现，但最终目标不仅是托管一组任务，而是在长期尺度上引导该领域对机器人操作能力形成系统性的认知。为此，我们从近期、中期与长期三个阶段概述 ManipulationNet 的使命。

近期的首要任务是：围绕少量、定义清晰的基准任务统一社区。通过降低参与门槛并提供标准化协议与评估机制，ManipulationNet 旨在鼓励来自不同研究团队的广泛参与。该阶段的目标并非追求全面覆盖，而是建立一个结果可直接比较的共享平台，以促进协作、加速在典型诊断任务上的进展。

在接下来的数年内，我们设想 ManipulationNet 将扩展为更丰富的任务集合，共同覆盖社区所面临的广泛操作挑战。其目标不仅是基准化"机器人能做什么"，还要基准化"如何做、为何成功或失败"，并针对不同任务类别进行分析。通过持续维护与新涌现能力和长期难题相匹配的任务集，框架将既提供诊断深度，又充当研究优先级的指引。

从更长期看，ManipulationNet 期望成为机器人操作能力的历史记录。在这一阶段，它将回答两个根本问题：在某一时点，机器人操作的能力边界是什么？以及哪些能力已足够成熟，可用于真实世界部署？基于一个标准化但可演进的框架，ManipulationNet 不仅将记录科学进步的轨迹，还将弥合实验室展示与实际应用之间的长期鸿沟。

归根结底，ManipulationNet 的愿景是与领域共同演进：从少量任务出发统一力量，再扩展为广泛基准以引导研究，最终形成一个既能记录进展、又能评估真实落地准备度的持久平台。通过这一演进，我们希望将 ManipulationNet 建设为机器人操作研究的基石，为科学发现与技术影响提供共同的基础。

4 Materials and Methods

在阐述设计理念之外，我们接下来将详细说明 mnet-client 与 mnet-server 的技术实现。作为全球性基础设施，我们将 mnet-server 部署在 Amazon Web Services（AWS）上(66)，用于计算与存储，以可靠且包容的方式支持全球分布式 mnet-client 上报任务表现。通信通过公共互联网的 TCP（传输控制协议）进行，以确保连接的稳定性与标准化。

软件结构概览见图 8-A。mnet-client 实现为一个与 ROS 兼容的包，从而可与各类机器人平台自然集成。其以注册信息与任务信息作为输入启动提交流程，并负责执行状态上报、任务监控、视频处理与文件提交。在执行状态上报方面，mnet-client 初始化两个 ROS 服务，用于声明当前任务是已完成还是被跳过。每个服务可通过标准 Trigger 消息调用，且会由 mnet-server 返回确认以证明收到。任务监控通过与 mnet-server 的定期通信实现：mnet-client 接收任务指令、响应关键帧请求，并检查连接状态。相关消息还会发布到 ROS topics，以确保机器人与人都能在 ROS 环境内透明访问。在视频记录方面，mnet-client 订阅独立的 ROS 相机 topic，并以指定帧率通过 OpenCV 保存执行过程。为标准化格式并兼容多种播放环境，视频采用 x264 编码。执行完成后，mnet-client 会压缩提交包，并向 mnet-server 请求预签名上传 URL。随后使用该临时地址通过 HTTP PUT 上传视频、关键帧与元数据，从而降低网络开销并提升可靠性。

图8：服务器---客户端性能提交流程细节。A. mnet-client 与 mnet-server 的软件结构概览；B. 每次性能提交的详细活动流程概览。

在 mnet-server 端，每个 mnet-client 连接都会启动一个专用线程来管理该次试验的全部活动（示意见图 8-B），并在提交结束后关闭。mnet-server 的架构由任务管理器与存储中心组成。任务管理器负责所有消息级操作，包括团队资质检查、一次性提交码发放、执行状态日志记录与任务特定指令下发。鉴于在全球范围内**可靠传输大文件（可达数十GB）**具有挑战性，存储中心基于 AWS S3 实现。当提交包就绪时，任务管理器向 S3 申请有效期两小时的预签名上传 URL，并发送给 mnet-client。随后，mnet-client 将数据直接上传至数据中心。若因连接或文件体积导致上传失败，日志、哈希值、时间戳等与完整性相关的关键信息已存储在 mnet-server，研究团队可通过新的 URL 继续上传，且不影响完整性验证。所有试验元数据、团队记录与提交状态均保存在 MySQL 数据库中，以可靠协调分散提交与集中审核。

借助该架构，ManipulationNet 以极小的集成成本支持任意 ROS 使能的机器人系统执行基准任务，同时保证视频采集的完整性、一致的任务上报与与 mnet-server 的在线指令交互。