机器人训练数据进入“全模态“时代——单拍视频不够用了

机器人训练数据进入"全模态"时代------单拍视频不够用了

全模态数据 | 机器人训练 | 多模态采集 | 触觉感知

关键词：数据标注采集、工厂流水线真实数据、具身智能数据、4D时序标注

引言：被忽视的数据陷阱

去年下半年，我开始频繁接触机器人团队的研发负责人。聊到数据采集环节时，几乎每个人都会提到一个相似的困境：实验室效果和真机表现之间，存在一道看不见的鸿沟。

有团队做过统计，他们训练出来的抓取模型，在标准测试集上能达到92%的成功率。但实际部署到工厂流水线后，这个数字直接掉到了58%。杯子碎了几十个，零件飞出去差点伤人，夹爪因为力度控制不准直接报废了一批工件。

一开始大家都以为是模型的问题。换架构、调参数、引入更多注意力机制，各种方案轮番尝试。后来请了外部专家做诊断，结论让所有人都愣住了：问题不在模型，在于喂给模型的数据本身就是残缺的。

这个发现让整个行业开始反思：我们花了那么多时间精力优化模型架构，却从来没认真审视过训练数据的质量。

我跟一个在这个行业干了七八年的工程师聊过，他打了个比方很形象："我们一直在研究怎么让马跑得更快，结果发现问题是马吃的东西不对。"

一、单目视频的时代正在落幕

做机器人训练的人这些年吃了不少亏。

早期方案很简单：架好摄像头，让人演示，录下来，标注，喂给模型。成本可控，流程清晰。这种"单目RGB视频"的采集方式门槛低、工具成熟，一度是行业主流。

但问题很快就暴露了。

一条RGB视频拍下来，模型能学会"这个杯子在桌上"。但伸手去抓的时候，该用多大力、角度歪了怎么修正、碰到异物手该怎么调整------这些信息，摄像头拍不出来。

纯视觉数据训练出来的模型，本质上是在"猜"。模型学到的是"看起来像成功的抓取长什么样"，而不是"成功的抓取需要满足什么物理条件"。一旦光照变化、背景变化、物体形态变化，"猜测"就容易失效。

更麻烦的是，视觉数据无法捕捉力度信息。机器人抓取不同材质的物体------玻璃杯、塑料瓶、鸡蛋、豆腐------需要完全不同的力度，但纯视觉方案给不了这些信息。模型只能靠"碰运气"，运气好能抓起来，运气不好就碎了。

这背后有一个残酷的行业数据：72%的研发团队将"数据模态不全"列为首要障碍。这是2026年6月零次方机器人在发布XRZero-G0时透露的行业调研结果。这个数字说明，问题不是偶发的技术困难，而是普遍的行业瓶颈。

传统单条数据采集成本呢？100美元起步。你算算一个像样的抓取数据集需要多少条，再乘以这个单价，预算直接爆炸。一个包含一万条有效样本的数据集，光采集成本就要100万美元，还不算标注和处理的人力成本。

更让人头疼的是，纯视觉数据训练出来的模型泛化能力差。换个灯光、换个背景、换个机器人型号，模型轻则精度断崖式下跌，重则直接失效。数据采集的边际成本降不下来，机器人商业化就是空谈。

这不是哪个团队的个案问题，而是整个行业的基础设施瓶颈。

二、三个标志性节点：全模态数据方案密集落地

时间来到2026年6月，国内机器人数据赛道突然热闹起来。三家公司相隔不到一周，各自拿出了自己的全模态数据答卷。

这个时间点太巧了，我忍不住去扒了背后的逻辑。感觉行业憋了一股劲，终于找到了突破方向。

零次方机器人：全链路方案登场

6月19日，零次方机器人发布了XRZero-G0。这套系统的定位很明确------覆盖"视觉-动作-语言"联合数据的全链路采集系统。

核心技术叫做"多视角遥操作"。操作员戴上VR头盔，通过力反馈手套远程控制机器人本体执行任务。在这个过程中，人的手部动作、机器人的末端位姿、环境视觉信息三条数据流同步采集，时间戳对齐误差控制在毫秒级。

多视角的意思是，从操作员视角和机器人视角同时采集数据。操作员看到的是"我打算怎么抓"，机器人看到的是"实际执行情况如何"。两条视角的数据叠加，才能还原完整的抓取决策过程。

这套方案有两个杀手锏值得关注：

第一个，自动数据质量筛选算法。采集过程中系统实时评估每条数据的有效性，自动过滤低质量样本。传统流程里，研发团队要等到后处理阶段才发现某条数据不能用，然后回头重新采集。XRZero-G0把这步前置了，采集效率提升明显。

第二个，"10+1"数据策略。10条无机器人演示数据加1条真机数据，等效于纯真机数据集的效果。翻译成人话就是：高质量的遥操作数据可以替代相当比例的真机采集，边际成本直接砍掉一个数量级。

零次方这次还开源了超过2000小时多模态数据，覆盖3000项任务。这个量级在国内具身智能领域是头一回。

对行业来说，"10+1"策略的意义在于：以前只有大厂才能玩得起的真机数据采集，现在中小团队也有机会参与了。门槛降下来了，整个行业的数据积累速度会加快。

知行机器人：触觉采集破局

6月22日，知行机器人推出"优采"数据采集手。这家公司的切入角度很直接------触觉感知。

我跟做工业分拣的团队聊过，他们最头疼的就是柔性抓取------抓水果、抓布料、抓软包装。纯视觉方案在这种场景下几乎是无解的，因为抓取力度无法从图像推断。但有了触觉数据就不一样了，机器人真的能"感受到"力度够不够，该不该再加一点。

机械手指尖集成了高密度触觉传感器阵列，参数相当硬核：

触觉压力范围覆盖0到160牛顿，能感知从轻轻触碰到的强力按压。力觉识别精度达到0.1牛顿，足以区分出被抓取物体的软硬、表面纹理、重量分布。位姿定位精度方面，XYZ三轴达到0.7毫米，角度精度0.01度。传感器密度则是2.34 taxels/cm²。

2.34 taxels/cm²是什么概念？相当于每平方厘米皮肤上有两个多taxels的高密度感知点。这个密度在商用触觉传感器中已经相当领先，能捕捉到微小的压力变化。

"优采"的核心卖点是"四源同步采集"：视觉、位姿、力觉、触觉四条通道同时输出，统一30Hz采样频率。时间戳对齐问题在采集端就解决了，不用等到后处理阶段再人工对齐。

这对数据标注的效率影响很大。传统方案采集的触觉数据是孤立片段，跟视觉和位姿数据对不上时间戳，后处理时需要大量人工做对齐。知行这套系统在采集端就嵌入了同步机制，标注效率大幅提升。

更重要的是，四源数据的联合标注，让机器人训练出来的模型真正具备"触觉感知"能力。以前的"触觉"往往是假的------传感器有，但数据没用上。知行的方案把触觉数据真正融入了训练闭环。

博登智能：开源千小时真机数据集

6月16日，博登智能开源了千小时真机RL数据集。比前两家早三天，但影响力可能更大。

这是全球范围内第一个千小时级的真机强化学习开源数据集。

覆盖范围：4类机器人、9大场景域、30+任务模板、3类数据形态。博登同时宣布与星尘智能达成战略合作，后者计划在2026年底部署千台级机器人集群。两家公司的数据协同，意味着这个数据集的规模还会继续扩张------目标是在2026年底达到3000小时。

3类数据形态是个有意思的设计。博登不只是采集"成功案例"，也采集失败案例和边界案例。这种多样化的数据形态对于训练鲁棒性强的模型非常重要。一个真正好用的机器人，需要知道什么情况会导致失败，这样才能在关键时刻"悬崖勒马"。

对行业来说，千小时真机RL数据的意义不只在于量，更在于"真机"二字。

仿真数据再漂亮，跟物理世界的摩擦力、弹性、形变总有差距。仿真环境里完美的抓取轨迹，到了真机上可能完全不能用------物理世界的复杂性是仿真无法模拟的。博登这套数据集全部来自真机运行，强化学习训练价值是纯仿真数据无法替代的。

而且，开源意味着更多研发团队能够获取高质量的真机训练数据，不用再从零开始积累。这对整个行业的加速发展有重要意义。

三、全模态数据采集的技术门槛有多高

说起来容易做起来难。全模态数据采集方案真正落地的时候，工程挑战远比想象中复杂。

最核心的问题是时间戳对齐。四条甚至更多数据流同时输出，视觉帧率通常是30Hz，触觉数据可能100Hz，力觉数据200Hz，位姿数据更高------这些数据要在同一时刻"对齐"，误差要控制在毫秒甚至微秒级别。

毫秒级同步听起来不算苛刻，但工程实现上是个硬骨头。传感器之间存在物理延迟，摄像头有曝光时间，触觉传感器有响应时间，力传感器有采样延迟，这些延迟累加起来可能导致数据"错位"。一个抓取动作从接触到完成可能只有几百毫秒，如果时间戳对不上，模型学到的就是错误关联。

另一个容易被忽视的挑战是数据质量评估。传统单目视频有没有问题，标注人员看一眼就知道。但触觉数据好不好、力觉曲线有没有失真、非专业人士根本判断不了。零次方的自动质量筛选算法正是为了解决这个问题------用算法自动判断数据是否可用，降低对人工经验的依赖。

还有一个现实问题：传感器之间的干扰。多模态采集设备集成了多种传感器，不同传感器之间可能存在电磁干扰、机械耦合等情况。比如力传感器装在机械手上，机械手的振动会传到力传感器，产生噪声。这种干扰怎么处理，需要大量的工程调试。

回过头来看，为什么国内直到2026年才出现成熟的商用全模态采集方案？原因就在这里：技术门槛太高，产业链不成熟，传感器、算法、工程能力缺一不可。

四、从Open X-Embodiment看国际数据生态

聊完国内的情况，有必要看看国际上走到哪一步了。

2023年，斯坦福、谷歌、微软等机构联合发布了Open X-Embodiment数据集，汇集了20多个机构的机器人数据，覆盖100多万条任务轨迹。这个数据集在当时被认为是"机器人学习领域的ImageNet时刻"。

但仔细看这个数据集，会发现一个特点：大部分数据来自"模仿学习"范式。什么意思呢？就是说，演示者做一遍动作，机器人跟着学。这种方式数据量大、采集相对简单，但问题在于泛化能力有限------环境稍微变一变，模型就容易失效。

博登的千小时真机RL数据集走的是另一条路：强化学习。机器人不是看演示，而是通过不断试错来学习。这种方式数据采集成本高，但训练出来的模型泛化能力更强，更接近"真正学会"而不是"照着做"。

两条路线各有优劣。模仿学习数据获取快、规模大，适合做基础能力；强化学习数据质量高、泛化强，适合做精调。未来的趋势可能是两者结合：用大规模模仿学习数据做预训练，再用高质量强化学习数据做精调。

博登的开源，对行业来说补上了"强化学习数据"这一环。加上零次方、知行的方案，国内的全模态数据生态已经初步成型。

五、硬件配套：触觉感知正在成为标配

全模态数据方案要落地，传感器是基础设施。这条赛道上，几个关键玩家的进展值得关注。

星动纪元的XHAND 1 PRO灵巧手是个典型案例：21自由度全直驱设计，指尖和手掌共分布18个触觉传感器，单点力觉分辨率达到0.01牛顿。这个配置意味着机器人能感知被抓取物体的软硬、表面纹理、接触面积------这些信息是视觉给不了的。

21个自由度意味着什么？意味着这只"手"可以做出更精细的动作，从简单的夹取到复杂的捏取、旋转、双手配合操作。18个分布式触觉传感器意味着什么？意味着机器人不只指尖有触觉，手掌不同位置也能感知接触状态，这对于稳定抓取大件物体非常重要。

蓝点触控的六维力传感器在工业场景已经铺开了：国内市占率72.6%，这个数字说明工业机器人在力控层面已经相当成熟。问题在于数据怎么跟视觉、触觉融合，形成完整的训练样本。这需要跨模态的数据处理能力。

还有一个值得注意的动向------戴盟机器人在2026年完成了亿元级A轮融资，由汇川技术和中国电信联合投资。他们明确表示，融资将用于建设超大规模含物理交互信息数据集。汇川是工控龙头，电信有数据和算力基础设施，这两家联手投资，数据采集的规模化能力不可小觑。

汇川技术的工业自动化积累，配合中国电信的算力和数据处理能力，再加上戴盟在机器人本体的积累，这条产业链的协同效应值得期待。

六、行业格局正在被重塑

三套方案、三个角度，指向同一个方向：多模态融合正在重新定义机器人数据的采集标准。

传统方案的数据是"切片"：一段视频，一帧一帧切出来，标注目标框、关键点、动作类型。数据之间是孤立的，一条视频跟另一条视频没有时序关联。标注完了就完了，数据的价值没有被充分挖掘。

全模态方案的数据是"流"：视觉+触觉+力觉+位姿，时间戳对齐，同步输出。这意味着机器人不仅知道"目标在哪儿"，还知道"接触时发生了什么"、"力度够不够"、"位姿偏了多远"、"该怎么调整"。

这种数据结构下，数据不再是孤立的一张张截图，而是连续的、可追溯的、有因果关联的。模型训练出来的不再是"看起来像会抓取"，而是"真的会抓取"。

这对数据标注行业提出了新的要求。

时序对齐成为硬需求。四条数据流同时采集，时间戳必须精确对齐，误差控制在毫秒甚至微秒级别。传统人工标注很难保证这种精度，需要自动化标注工具介入。

标注维度大幅扩展。触觉数据怎么标？力觉曲线怎么切分？位姿变化的临界点怎么定义？这些问题没有成熟方案，需要跟采集硬件同步迭代。

质量评估标准亟待建立。什么样的数据算"高质量"？不同模态之间的权重怎么分配？视觉数据好但触觉数据差，这样的样本该不该用？目前没有行业标准，各家都在摸索。

七、为什么工业场景会率先落地

全模态数据方案会先从工业场景开始普及，这是有原因的。

工业场景的环境相对可控。光照固定、背景固定、物体形态变化范围有限。这意味着数据采集的质量更容易保证，采集效率更高。

工业场景的任务定义明确。抓取、放置、装配、搬运------这些任务的边界清晰，数据质量评估有标准可循。

工业场景对失败容忍度低，但一旦成功收益明确。一个合格的数据方案，在工业场景中能快速验证价值，形成正向循环。

相比之下，服务机器人面临的环境复杂度要高出几个数量级。家庭场景的光照千变万化，物体形态各异，用户行为不可预测。全模态数据在服务机器人领域的应用，还需要更长的探索周期。

八、数据平台的新机会在哪里

全模态数据方案的兴起，给数据平台带来了新的机会窗口。

时序标注能力是第一个机会。传统的2D图像标注工具已经成熟，但4D时序标注------即三条以上数据流的时间戳对齐标注------还没有行业标准。具备完整解决方案的团队，自研标注系统已实现99.5%以上同步精度。

跨模态数据处理能力是第二个机会。全模态数据不只是"多条数据叠加"，更重要的是数据之间的关联性分析。视觉信息和触觉信息如何对应？力觉曲线应该在哪个时间点进行切分？这些都需要专业的领域知识积累。

corner case的处理能力是第三个机会。物理交互场景中的边界情况往往最难采集、最难标注，但恰恰是这些corner case最能体现数据的价值。物理交互场景的实采经验，让团队积累了大量corner case的处理能力。

传统数据平台转型全模态数据服务，门槛不低。需要懂传感器、懂机器人、懂标注、懂算法------这四样缺一不可。但这恰恰也是机会所在：门槛高意味着竞争者少，先发优势会更明显。

九、为什么失败案例和边界案例同样重要

博登的3类数据形态设计值得专门说说。

之前大家采集数据，都是奔着"成功案例"去的。演示一百次成功的抓取，训练出来的模型就知道"这样抓能成功"。但模型不知道"这样抓会失败"。

问题是，现实世界不会总是出现"标准情况"。光照会变化、物体位置会偏移、材质会不同------这些边界情况，往往就是失败的高发区。

博登的设计是把失败案例和边界案例也纳入采集范围。模型不仅要学会"怎么做是对的"，还要学会"怎么做是错的"、"什么时候要小心"。

这对训练数据的多样性提出了更高要求。以前1000条成功案例够用，现在可能需要500条成功、300条失败、200条边界。这个比例怎么定，不同任务有不同答案，需要在实践中摸索。

十、写在最后

回顾这一波全模态数据方案的爆发，有一个感受很深：行业终于开始正视数据问题了。

之前大家都在卷模型、卷架构、卷参数，结果发现瓶颈根本不在模型。一个在数据上偷懒的模型，再怎么优化也是"巧妇难为无米之炊"。

现在行业开始把注意力放回数据，这是好事。但全模态数据方案才刚刚起步，硬件要迭代、标注流程要重建、质量评估标准要确立------这些都是接下来几年要解决的问题。

有一点是确定的：单拍视频的时代结束了。

视觉+触觉+力觉+位姿的多源融合，正在成为机器人训练数据的默认形态。这个转变会先从工业场景开始，逐步渗透到服务机器人领域。对数据平台来说，谁能率先跑通全模态数据的采集-标注-交付链条，谁就拿到了下一阶段的入场券。

赛道够宽，时间窗口还在，机会是均等的。