机器人训练数据进入"全模态"时代------单拍视频不够用了
全模态数据 | 机器人训练 | 多模态采集 | 触觉感知
关键词:数据标注采集、工厂流水线真实数据、具身智能数据、4D时序标注
引言:被忽视的数据陷阱
去年下半年,我开始频繁接触机器人团队的研发负责人。聊到数据采集环节时,几乎每个人都会提到一个相似的困境:实验室效果和真机表现之间,存在一道看不见的鸿沟。
有团队做过统计,他们训练出来的抓取模型,在标准测试集上能达到92%的成功率。但实际部署到工厂流水线后,这个数字直接掉到了58%。杯子碎了几十个,零件飞出去差点伤人,夹爪因为力度控制不准直接报废了一批工件。
一开始大家都以为是模型的问题。换架构、调参数、引入更多注意力机制,各种方案轮番尝试。后来请了外部专家做诊断,结论让所有人都愣住了:问题不在模型,在于喂给模型的数据本身就是残缺的。
这个发现让整个行业开始反思:我们花了那么多时间精力优化模型架构,却从来没认真审视过训练数据的质量。
我跟一个在这个行业干了七八年的工程师聊过,他打了个比方很形象:"我们一直在研究怎么让马跑得更快,结果发现问题是马吃的东西不对。"
一、单目视频的时代正在落幕
做机器人训练的人这些年吃了不少亏。
早期方案很简单:架好摄像头,让人演示,录下来,标注,喂给模型。成本可控,流程清晰。这种"单目RGB视频"的采集方式门槛低、工具成熟,一度是行业主流。
但问题很快就暴露了。
一条RGB视频拍下来,模型能学会"这个杯子在桌上"。但伸手去抓的时候,该用多大力、角度歪了怎么修正、碰到异物手该怎么调整------这些信息,摄像头拍不出来。
纯视觉数据训练出来的模型,本质上是在"猜"。模型学到的是"看起来像成功的抓取长什么样",而不是"成功的抓取需要满足什么物理条件"。一旦光照变化、背景变化、物体形态变化,"猜测"就容易失效。
更麻烦的是,视觉数据无法捕捉力度信息。机器人抓取不同材质的物体------玻璃杯、塑料瓶、鸡蛋、豆腐------需要完全不同的力度,但纯视觉方案给不了这些信息。模型只能靠"碰运气",运气好能抓起来,运气不好就碎了。
这背后有一个残酷的行业数据:72%的研发团队将"数据模态不全"列为首要障碍。这是2026年6月零次方机器人在发布XRZero-G0时透露的行业调研结果。这个数字说明,问题不是偶发的技术困难,而是普遍的行业瓶颈。
传统单条数据采集成本呢?100美元起步。你算算一个像样的抓取数据集需要多少条,再乘以这个单价,预算直接爆炸。一个包含一万条有效样本的数据集,光采集成本就要100万美元,还不算标注和处理的人力成本。
更让人头疼的是,纯视觉数据训练出来的模型泛化能力差。换个灯光、换个背景、换个机器人型号,模型轻则精度断崖式下跌,重则直接失效。数据采集的边际成本降不下来,机器人商业化就是空谈。
这不是哪个团队的个案问题,而是整个行业的基础设施瓶颈。
二、三个标志性节点:全模态数据方案密集落地
时间来到2026年6月,国内机器人数据赛道突然热闹起来。三家公司相隔不到一周,各自拿出了自己的全模态数据答卷。
这个时间点太巧了,我忍不住去扒了背后的逻辑。感觉行业憋了一股劲,终于找到了突破方向。
零次方机器人:全链路方案登场
6月19日,零次方机器人发布了XRZero-G0。这套系统的定位很明确------覆盖"视觉-动作-语言"联合数据的全链路采集系统。
核心技术叫做"多视角遥操作"。操作员戴上VR头盔,通过力反馈手套远程控制机器人本体执行任务。在这个过程中,人的手部动作、机器人的末端位姿、环境视觉信息三条数据流同步采集,时间戳对齐误差控制在毫秒级。
多视角的意思是,从操作员视角和机器人视角同时采集数据。操作员看到的是"我打算怎么抓",机器人看到的是"实际执行情况如何"。两条视角的数据叠加,才能还原完整的抓取决策过程。
这套方案有两个杀手锏值得关注:
第一个,自动数据质量筛选算法。采集过程中系统实时评估每条数据的有效性,自动过滤低质量样本。传统流程里,研发团队要等到后处理阶段才发现某条数据不能用,然后回头重新采集。XRZero-G0把这步前置了,采集效率提升明显。
第二个,"10+1"数据策略。10条无机器人演示数据加1条真机数据,等效于纯真机数据集的效果。翻译成人话就是:高质量的遥操作数据可以替代相当比例的真机采集,边际成本直接砍掉一个数量级。
零次方这次还开源了超过2000小时多模态数据,覆盖3000项任务。这个量级在国内具身智能领域是头一回。
对行业来说,"10+1"策略的意义在于:以前只有大厂才能玩得起的真机数据采集,现在中小团队也有机会参与了。门槛降下来了,整个行业的数据积累速度会加快。
知行机器人:触觉采集破局
6月22日,知行机器人推出"优采"数据采集手。这家公司的切入角度很直接------触觉感知。
我跟做工业分拣的团队聊过,他们最头疼的就是柔性抓取------抓水果、抓布料、抓软包装。纯视觉方案在这种场景下几乎是无解的,因为抓取力度无法从图像推断。但有了触觉数据就不一样了,机器人真的能"感受到"力度够不够,该不该再加一点。
机械手指尖集成了高密度触觉传感器阵列,参数相当硬核:
触觉压力范围覆盖0到160牛顿,能感知从轻轻触碰到的强力按压。力觉识别精度达到0.1牛顿,足以区分出被抓取物体的软硬、表面纹理、重量分布。位姿定位精度方面,XYZ三轴达到0.7毫米,角度精度0.01度。传感器密度则是2.34 taxels/cm²。
2.34 taxels/cm²是什么概念?相当于每平方厘米皮肤上有两个多taxels的高密度感知点。这个密度在商用触觉传感器中已经相当领先,能捕捉到微小的压力变化。
"优采"的核心卖点是"四源同步采集":视觉、位姿、力觉、触觉四条通道同时输出,统一30Hz采样频率。时间戳对齐问题在采集端就解决了,不用等到后处理阶段再人工对齐。
这对数据标注的效率影响很大。传统方案采集的触觉数据是孤立片段,跟视觉和位姿数据对不上时间戳,后处理时需要大量人工做对齐。知行这套系统在采集端就嵌入了同步机制,标注效率大幅提升。
更重要的是,四源数据的联合标注,让机器人训练出来的模型真正具备"触觉感知"能力。以前的"触觉"往往是假的------传感器有,但数据没用上。知行的方案把触觉数据真正融入了训练闭环。
博登智能:开源千小时真机数据集
6月16日,博登智能开源了千小时真机RL数据集。比前两家早三天,但影响力可能更大。
这是全球范围内第一个千小时级的真机强化学习开源数据集。
覆盖范围:4类机器人、9大场景域、30+任务模板、3类数据形态。博登同时宣布与星尘智能达成战略合作,后者计划在2026年底部署千台级机器人集群。两家公司的数据协同,意味着这个数据集的规模还会继续扩张------目标是在2026年底达到3000小时。
3类数据形态是个有意思的设计。博登不只是采集"成功案例",也采集失败案例和边界案例。这种多样化的数据形态对于训练鲁棒性强的模型非常重要。一个真正好用的机器人,需要知道什么情况会导致失败,这样才能在关键时刻"悬崖勒马"。
对行业来说,千小时真机RL数据的意义不只在于量,更在于"真机"二字。
仿真数据再漂亮,跟物理世界的摩擦力、弹性、形变总有差距。仿真环境里完美的抓取轨迹,到了真机上可能完全不能用------物理世界的复杂性是仿真无法模拟的。博登这套数据集全部来自真机运行,强化学习训练价值是纯仿真数据无法替代的。
而且,开源意味着更多研发团队能够获取高质量的真机训练数据,不用再从零开始积累。这对整个行业的加速发展有重要意义。
三、全模态数据采集的技术门槛有多高
说起来容易做起来难。全模态数据采集方案真正落地的时候,工程挑战远比想象中复杂。
最核心的问题是时间戳对齐。四条甚至更多数据流同时输出,视觉帧率通常是30Hz,触觉数据可能100Hz,力觉数据200Hz,位姿数据更高------这些数据要在同一时刻"对齐",误差要控制在毫秒甚至微秒级别。
毫秒级同步听起来不算苛刻,但工程实现上是个硬骨头。传感器之间存在物理延迟,摄像头有曝光时间,触觉传感器有响应时间,力传感器有采样延迟,这些延迟累加起来可能导致数据"错位"。一个抓取动作从接触到完成可能只有几百毫秒,如果时间戳对不上,模型学到的就是错误关联。
另一个容易被忽视的挑战是数据质量评估。传统单目视频有没有问题,标注人员看一眼就知道。但触觉数据好不好、力觉曲线有没有失真、非专业人士根本判断不了。零次方的自动质量筛选算法正是为了解决这个问题------用算法自动判断数据是否可用,降低对人工经验的依赖。
还有一个现实问题:传感器之间的干扰。多模态采集设备集成了多种传感器,不同传感器之间可能存在电磁干扰、机械耦合等情况。比如力传感器装在机械手上,机械手的振动会传到力传感器,产生噪声。这种干扰怎么处理,需要大量的工程调试。
回过头来看,为什么国内直到2026年才出现成熟的商用全模态采集方案?原因就在这里:技术门槛太高,产业链不成熟,传感器、算法、工程能力缺一不可。
四、从Open X-Embodiment看国际数据生态
聊完国内的情况,有必要看看国际上走到哪一步了。
2023年,斯坦福、谷歌、微软等机构联合发布了Open X-Embodiment数据集,汇集了20多个机构的机器人数据,覆盖100多万条任务轨迹。这个数据集在当时被认为是"机器人学习领域的ImageNet时刻"。
但仔细看这个数据集,会发现一个特点:大部分数据来自"模仿学习"范式。什么意思呢?就是说,演示者做一遍动作,机器人跟着学。这种方式数据量大、采集相对简单,但问题在于泛化能力有限------环境稍微变一变,模型就容易失效。
博登的千小时真机RL数据集走的是另一条路:强化学习。机器人不是看演示,而是通过不断试错来学习。这种方式数据采集成本高,但训练出来的模型泛化能力更强,更接近"真正学会"而不是"照着做"。
两条路线各有优劣。模仿学习数据获取快、规模大,适合做基础能力;强化学习数据质量高、泛化强,适合做精调。未来的趋势可能是两者结合:用大规模模仿学习数据做预训练,再用高质量强化学习数据做精调。
博登的开源,对行业来说补上了"强化学习数据"这一环。加上零次方、知行的方案,国内的全模态数据生态已经初步成型。
五、硬件配套:触觉感知正在成为标配
全模态数据方案要落地,传感器是基础设施。这条赛道上,几个关键玩家的进展值得关注。
星动纪元的XHAND 1 PRO灵巧手是个典型案例:21自由度全直驱设计,指尖和手掌共分布18个触觉传感器,单点力觉分辨率达到0.01牛顿。这个配置意味着机器人能感知被抓取物体的软硬、表面纹理、接触面积------这些信息是视觉给不了的。
21个自由度意味着什么?意味着这只"手"可以做出更精细的动作,从简单的夹取到复杂的捏取、旋转、双手配合操作。18个分布式触觉传感器意味着什么?意味着机器人不只指尖有触觉,手掌不同位置也能感知接触状态,这对于稳定抓取大件物体非常重要。
蓝点触控的六维力传感器在工业场景已经铺开了:国内市占率72.6%,这个数字说明工业机器人在力控层面已经相当成熟。问题在于数据怎么跟视觉、触觉融合,形成完整的训练样本。这需要跨模态的数据处理能力。
还有一个值得注意的动向------戴盟机器人在2026年完成了亿元级A轮融资,由汇川技术和中国电信联合投资。他们明确表示,融资将用于建设超大规模含物理交互信息数据集。汇川是工控龙头,电信有数据和算力基础设施,这两家联手投资,数据采集的规模化能力不可小觑。
汇川技术的工业自动化积累,配合中国电信的算力和数据处理能力,再加上戴盟在机器人本体的积累,这条产业链的协同效应值得期待。
六、行业格局正在被重塑
三套方案、三个角度,指向同一个方向:多模态融合正在重新定义机器人数据的采集标准。
传统方案的数据是"切片":一段视频,一帧一帧切出来,标注目标框、关键点、动作类型。数据之间是孤立的,一条视频跟另一条视频没有时序关联。标注完了就完了,数据的价值没有被充分挖掘。
全模态方案的数据是"流":视觉+触觉+力觉+位姿,时间戳对齐,同步输出。这意味着机器人不仅知道"目标在哪儿",还知道"接触时发生了什么"、"力度够不够"、"位姿偏了多远"、"该怎么调整"。
这种数据结构下,数据不再是孤立的一张张截图,而是连续的、可追溯的、有因果关联的。模型训练出来的不再是"看起来像会抓取",而是"真的会抓取"。
这对数据标注行业提出了新的要求。
时序对齐成为硬需求。四条数据流同时采集,时间戳必须精确对齐,误差控制在毫秒甚至微秒级别。传统人工标注很难保证这种精度,需要自动化标注工具介入。
标注维度大幅扩展。触觉数据怎么标?力觉曲线怎么切分?位姿变化的临界点怎么定义?这些问题没有成熟方案,需要跟采集硬件同步迭代。
质量评估标准亟待建立。什么样的数据算"高质量"?不同模态之间的权重怎么分配?视觉数据好但触觉数据差,这样的样本该不该用?目前没有行业标准,各家都在摸索。
七、为什么工业场景会率先落地
全模态数据方案会先从工业场景开始普及,这是有原因的。
工业场景的环境相对可控。光照固定、背景固定、物体形态变化范围有限。这意味着数据采集的质量更容易保证,采集效率更高。
工业场景的任务定义明确。抓取、放置、装配、搬运------这些任务的边界清晰,数据质量评估有标准可循。
工业场景对失败容忍度低,但一旦成功收益明确。一个合格的数据方案,在工业场景中能快速验证价值,形成正向循环。
相比之下,服务机器人面临的环境复杂度要高出几个数量级。家庭场景的光照千变万化,物体形态各异,用户行为不可预测。全模态数据在服务机器人领域的应用,还需要更长的探索周期。
八、数据平台的新机会在哪里
全模态数据方案的兴起,给数据平台带来了新的机会窗口。
时序标注能力是第一个机会。传统的2D图像标注工具已经成熟,但4D时序标注------即三条以上数据流的时间戳对齐标注------还没有行业标准。具备完整解决方案的团队,自研标注系统已实现99.5%以上同步精度。
跨模态数据处理能力是第二个机会。全模态数据不只是"多条数据叠加",更重要的是数据之间的关联性分析。视觉信息和触觉信息如何对应?力觉曲线应该在哪个时间点进行切分?这些都需要专业的领域知识积累。
corner case的处理能力是第三个机会。物理交互场景中的边界情况往往最难采集、最难标注,但恰恰是这些corner case最能体现数据的价值。物理交互场景的实采经验,让团队积累了大量corner case的处理能力。
传统数据平台转型全模态数据服务,门槛不低。需要懂传感器、懂机器人、懂标注、懂算法------这四样缺一不可。但这恰恰也是机会所在:门槛高意味着竞争者少,先发优势会更明显。
九、为什么失败案例和边界案例同样重要
博登的3类数据形态设计值得专门说说。
之前大家采集数据,都是奔着"成功案例"去的。演示一百次成功的抓取,训练出来的模型就知道"这样抓能成功"。但模型不知道"这样抓会失败"。
问题是,现实世界不会总是出现"标准情况"。光照会变化、物体位置会偏移、材质会不同------这些边界情况,往往就是失败的高发区。
博登的设计是把失败案例和边界案例也纳入采集范围。模型不仅要学会"怎么做是对的",还要学会"怎么做是错的"、"什么时候要小心"。
这对训练数据的多样性提出了更高要求。以前1000条成功案例够用,现在可能需要500条成功、300条失败、200条边界。这个比例怎么定,不同任务有不同答案,需要在实践中摸索。
十、写在最后
回顾这一波全模态数据方案的爆发,有一个感受很深:行业终于开始正视数据问题了。
之前大家都在卷模型、卷架构、卷参数,结果发现瓶颈根本不在模型。一个在数据上偷懒的模型,再怎么优化也是"巧妇难为无米之炊"。
现在行业开始把注意力放回数据,这是好事。但全模态数据方案才刚刚起步,硬件要迭代、标注流程要重建、质量评估标准要确立------这些都是接下来几年要解决的问题。
有一点是确定的:单拍视频的时代结束了。
视觉+触觉+力觉+位姿的多源融合,正在成为机器人训练数据的默认形态。这个转变会先从工业场景开始,逐步渗透到服务机器人领域。对数据平台来说,谁能率先跑通全模态数据的采集-标注-交付链条,谁就拿到了下一阶段的入场券。
赛道够宽,时间窗口还在,机会是均等的。