目录:
0 引言
1 人形机器人居家服务的需求痛点与应对思路
1.1 安全性困境
1.1.1 传感器被干扰导致的安全风险
1.1.2 居室空间分隔导致的安全风险
1.1.3 意外跌倒导致的安全风险
1.1.4 部件失能导致的安全风险
1.1.5 情绪价值期望与制造商的"不对等责任"
1.1.6 应对思路:将部分传感器移出人形机器人本体
1.2 维度灾难
1.2.1 端到端训练
1.2.2 维度灾难与世界模型
1.2.3 应对思路:基于居所分层立体几何模型的任务场景降维
1.2.3.1 居所室内空间的物理参数友好
1.2.3.2 居所具备较好的结构化潜力
1.2.3.3 居所配置文件
1.2.3.4 使用单件家具/家电执行服务任务的强约束物理启发端到端机器学习
1.2.3.5 基于居所分层立体几何模型的任务场景降维
1.2.3.6 任务场景降维引发分层模块化架构(MPC+WBC)的回潮
2 室联人形机器人
2.1 基本思路:室侧系统与机器人本体系统相分离
2.1.1 将部分感知设备移到各居室的天花板(室联感知)
2.1.2 将部分算法、全部管理子系统卸载到外置机箱(边端一体计算架构)
2.1.3 将语言处理子系统卸载到居家口语大模型楼宇服务器
2.3 室侧传感器布设示意图
2.4 传感器成本问题
3 室联人形机器人居家服务的工作流程图
4 关于"具身智能"的思考
4.1 室联人形机器人在"具身"、"智能"两个方面的技术降维
4.2 通用智能执念 vs 产业化变现
4.3 具身之"身"的升维与企业的战略先机
5 结语:突破同质化
声明:
本文由笔者(并非人形机器人业内人士)在多方学习的基础上独立创作。限于检索资料的范围,除了特殊声明之处,笔者不声称所述技术思想是本人原创。任何先于本文公开发布的、与本文部分内容相同或相近的技术信息的原创者,享有更优先的知识产权。
正文:
0 引言
2023年11月,工信部发布了《人形机器人创新发展指导意见》,针对人形机器人功能提出了实用化的需求,其特征是:
能够应对真实场景下的复杂环境与任务,能够应对突发情况。
在此后的两年中,笔者在知乎发布了多篇关于在人形机器人控制系统中深入应用FPGA 的技术文档,其中2024年6月发布的《室联人形机器人:家政服务任务结构化、技术要点、深入应用FPGA的控制系统框架设计》(以下简称《室联人形机器人控制系统框架设计》,其最新版本的链接:室联人形机器人:家政服务任务结构化、技术要点、深入应用FPGA的控制系统框架设计(整合版A))提出了"室联人形机器人"的概念,并且详细阐述了人形机器人居家服务涉及的各项要点。
然而,这篇文档的行文方式存在缺陷:章节排布以技术思路为索引,不利于突出重点;单纯采用了语言表述的方式,不利于读者直观把握各技术要素之间的逻辑、时序关系;为了完备地阐述观点而导致篇幅较长,可能使部分读者望而却步。
本文拟补救上述缺陷,对文档《室联人形机器人控制系统框架设计》进行精简,以需求痛点为核心,基于"室联"、任务场景降维的思路 ,重新编排章节,将室联人形机器人居家服务的工作过程整合为一个着色划分功能的流程图,添加笔者近期的一些深度思考,以期向业内人士、潜在投资人推介:
室联人形机器人;
在人形机器人控制系统中深入应用FPGA;
以任务场景降维、加速变现 为特征的实用主义研发思想。
[注1:本文所说的"深入"应用FPGA,是相对于将FPGA应用于工业机器人伺服电机驱动及反馈控制的方案而言。大约在10年前,这样应用FPGA的工业机器人就已经在售。]
[注2:本文用居所 指代由开发商提供的整套房子(包括内部的门);用居室指代房子中的一个房间,例如门厅、卧室、厨房。]
1人形机器人居家服务的核心痛点与应对思路
1.1 安全性困境
人形机器人作为一种在很大程度上自主运行的机械-电子设备,如果日常与人类混居(类比于协作机器人但应用场景的复杂程度大得多),其安全性必然是用户考虑的首要因素。
人形机器人在居所中执行服务任务时,它运动所及的平面区域、肢节触及的空间区域,其几何形状是复杂的、实时变化的,其肢节有可能与人类个体/宠物的活动区域发生意外重合(即碰撞),并且,这种重合的具体形式、出现的时刻、导致的后果,将因人类个体/宠物的不可预测的行动而实时变化。
1.1.1 传感器被干扰导致的安全风险
根据公开的信息,当前在研的人形机器人,其感知环境只能依赖于本体内置的各种传感器。如果传感器在各种因素的干扰下性能下降甚至失效,将导致人形机器人控制系统对任务环境做出错误的判断,导致安全风险。
例如,高拟人度人形机器人的身高、体积与人类个体相似,如果有一个人在离人形机器人较近的区域走过或停留,将导致其内置的多个传感器(尤其是位置比较低的传感器)的探测视野在相应的方向上被大范围遮挡,从而影响其对周边环境的感知、判断,进而可能引发安全风险。
1.1.2 居室空间分隔导致的安全风险
居所由多个以门联通的居室构成,墙壁在围成相对独立的居住空间的同时,也阻碍了人形机器人所携带传感器的"视线",从而导致人形机器人不能感知墙对侧的情况、做出应对预案。
例如,位于卧室中的人形机器人,感知不到门厅中靠近卧室门口两侧的情况,在从卧室进入门厅的过程中(尤其是在执行紧急任务的情况下),人形机器人无法为预防可能存在的碰撞而在子任务规划、本体运动路径规划、肢节运动轨迹规划等各个层面预先做准备。
1.1.3 意外跌倒导致的安全风险
高拟人度人形机器人的重心高(直立行走)且支撑范围窄(双足支撑)导致其平衡困难。在因突发事件导致其失去平衡、跌倒的情况下,身体落地过程中各肢节在重力持续作用下积累的动能,以及各肢节为调制姿态、减轻冲击而采取的动作所产生的动能,有可能危及临近区域内人类个体、宠物的安全,或(/和)危及自身、临近区域内器物的安全。
1.1.4 部件失能导致的安全风险
人形机器人是一个复杂的机械-电子设备,在长期执行家政服务任务的过程中,某些部件难免因故障/老化而失去功能(例如1个伺服电机烧毁),导致其本体的运动学模型、动力学模型发生根本性的改变(失去1个自由度),如果不及时发现、定位、评估、应对(例如改变系统模型以应对)这类故障,则必将危及临近区域内人类个体、宠物的安全,或(/和)危及自身、临近区域内器物的安全。
1.1.5 情绪价值期望与制造商的"不对等责任"
在居家服务应用场景下,相比于非人形机器人,人形机器人最大的优势在于"像人"以提供情绪价值。否则,一个"四轮足蜘蛛腿底盘+多关节躯干+多机械臂"机器人的性价比、性能上限(尤其是以机械结构稳定性为标志的安全性上限)都将远超人形机器人。
这种情绪价值期望,必将导致愿意 接受人形机器人居家服务的用户对**"TA"** 产生超出正常水平的预期,包括在安全性方面的预期,例如:认为**"TA"**是一个无所不能的高科技伙伴、应该在任何情况下都确保自己的安全。
人形机器人如果大量进入家庭提供服务,普遍存在的上述预期,将使其制造商面对与现实的技术-成本可行性不对等的责任,从而导致业内在安全性维度展开更为激烈的、近乎无上限的竞争(类比于自动驾驶领域)。
1.1.6 应对思路:将部分传感器移出人形机器人本体
关于上述"被动干扰导致的安全风险"、"空间分隔导致的安全风险",《室联人形机器人控制系统框架设计》针对人形机器人本体传感器视野受限且易被遮挡的功能痛点,借鉴车路协同汽车自动驾驶系统将大量传感器布置在路侧以提供全局视野的思路,提出了室联人形机器人的概念,即:
将人形机器人感知设备(例如RGB-D摄像头)中的一部分设置在各居室的天花板上(以下称为"室侧感知设备"),以使传感器不易被干扰,并且实现对各个居室内空间的完备监控。
在应对"意外跌倒导致的安全风险"、"部件失能导致的安全风险"方面,运算核心在决策人形机器人采取什么动作以应对这两种风险时,能够基于室侧感知设备提供的、完备的邻近环境信息,进行风险评估、动作规划,从而避免其所采取的动作对周边的人、宠物、室内设备造成损害。
一个附带的明显优势是,对各居室的完备监测,使全居所范围内的任务、路径规划成为可能,避免出现"人形机器人走进新的居室才发现其中没有任务涉及的人/物品"这类情况。当任务比较紧急时,这一优势将更具实用价值。
第2、3节将提供更详细的设计。
1.2 维度灾难
人形机器人居家服务的另一个核心痛点,是端到端人工智能网络在实用化应用场景下面临的维度灾难。
1.2.1 端到端训练
目前,基于人工智能网络的端到端训练,已经成为人形机器人控制系统获得任务执行能力的热门技术路径。人形机器人据此已经能以发布视频的形式演示一些特定的任务,例如开门、倒水、叠衣服、分拣物品。
1.2.2 维度灾难与世界模型
已有的端到端训练的输入端的数据是高度定制化的,即,训练场景被限定为人形机器人面对的一小块被"净化"的区域,一旦区域内出现更多的"干扰"物体,任务就很可能失败。
进而,如果将人形机器人放置到居家服务的实用化任务场景中,居所中家具/家电的种类、布置方式千变万化,将导致输入信息维度的爆炸性增长,最终使端到端训练不可能完成,也就是所谓的"维度灾难"。
通用人工智能理念下的世界模型,是解决维度灾难问题的可信框架,但目前还看不到在工程意义上建立通用世界模型的确切前景。
1.2.3 应对思路:基于居所分层立体几何模型的任务场景降维
1.2.3.1 居所室内空间的物理参数友好
居所室内空间中的光照情况比较稳定,受日光影响较少,并且没有风、雨、雪、雾、雹、尘、盐、雷电等天气因素的干扰,温度、湿度也相对稳定。工作于其中的人形机器人的感知系统,在同等成本下能够以显著高于室外环境的可靠性、精度实现对环境的感知;工作于其中的射频通信系统,也将不必考虑天气因素对信道、设备的影响。
1.2.3.2 居所具备较好的结构化潜力
居所的居室布局千变万化,居室内的家具、家电的布置方式千变万化,由此导致室内家政服务人形机器人面对的是非结构化的、高维度的应用场景。
然而,居所、家具、家电都是工业制成品,为了便于制造及运输,其中大多数的主体形状是长方体、圆柱体、圆锥体以及它们的变形体的组合(包括正-负组合),致使由这些"近规则体"构成的居所室内环境,可以在很大程度上由人形机器人的控制系统在宏观层面上、以立体几何数字模型的形式予以结构化,即,实现复杂度降维。
同时,大部分的家具、家电的位置是相对固定的,对于某些经常或意外被移动的家具、家电,其移动过程相对较慢,从而为室联人形机器人控制系统及时感知其状态的变化(移动、转动、搬入、搬出、倾倒等)并且及时更新结构化数字模型提供了可能。
1.2.3.3 居所配置文件
居所配置文件是一个预定义格式的、具备特定语法-语义系统的描述文件,用于汇总居所及其内置设备的重要信息,例如:
居所内各居室的结构、尺寸,各居室之间的空间位置关系,各居室门的位置;
各门轴在门框上的位置,各门页相对于居室及门框的转动方向(内/外开、左/右开)、转动扇区区间,门把手在门上的位置、握持方式(旋转手柄/球状/椭球状)、尺寸,门把手的扭转方向、扭转扇区区间;
居所内家具的结构(例如柜门的上述信息)、尺寸、位置、朝向;
居所内家电的结构、尺寸、位置、朝向、功能、型号、操作规则(例如洗衣机操作面板上的各按键的位置+各种洗涤任务选项对应的按键操作序列);
............
上述居所信息由楼宇开发商提供,家具、家电的信息由供货商提供,室内物品的位置信息由应用工程师根据用户提供的信息远程加载(或由用户辅助人形机器人控制系统予以识别),所有信息最终以预定义的格式写入居所配置文件、存储到人形机器人的非易失存储器。
1.2.3.4 使用单件家具/家电执行服务任务的强约束物理启发端到端机器学习
对于使用单件家具/家电完成居家服务任务的应用场景,在以这个任务过程为目标的端到端人工智能网络训练中,将居所配置文件包含的家具/家电信息作为物理启发的神经网络训练的强约束信息,把它添加到输入端的训练用数据集,将有利于大幅度降低训练工作量、大幅度降低对训练结果的泛化能力的需求。
以开门的任务场景训练为例,基于居所配置文件提供的1.2.3.3节所述的信息,人形机器人本体传感器将能精确定位门把手的位置,并且能预知门把手的扭转范围,预知门把手相对于门轴的距离不变 ...... 这些信息将大幅度压缩端到端训练的目标位置搜索空间,使训练过程成为强约束的、物理启发的端到端机器学习,从而大幅度提高训练效率。并且,因为应用场景也是由居所配置文件进行描述的,所以只要将1.2.3.3节所述的信息加载到人工智能网络推理模块的输入端,就能大幅度降低对网络泛化能力的需求。
说明:
所谓"物理启发的机器学习",不是PINN,而是笔者在向大模型提问"用物理信息约束端到端训练"之后得到的回答,以下是部分内容的截图。
图1 大模型提供的关于物理启发的机器学习的信息
1.2.3.5基于居所分层立体几何模型的任务场景降维
基于1.2.3.2节所述的事实,人形机器人的运算核心分析各居室内图像及点云、提取简单的点/线/面/棱/拐角/顶角,量化分析这些几何元素在空间中的形/位数据,再进行手动标注(由FAE/客户完成)或进行结合先验知识的自动识别(基于CNN或专业大模型),就能将这些几何元素与居所配置文件 提供的居所布局、居室结构、家具及家电的位置+外形轮廓+尺寸进行配准 ,建立自顶(居所)向下(家具/家电)的、与实物(含属性)一一对应的居所分层立体几何模型(类似于数字孪生体)。
基于这个模型,人形机器人运算核心就能将非结构化的居家服务宏观任务切分为更易实现的、近似结构化的局部子任务,对用户下达的任务的场景进行降维,即:
对居所内空间进行参数化划分,定义人形机器人本体的活动范围(未被家具、家电占据的可通行区域,包含可以借助移动小件家具例如凳子而通行的区域),将用户下达的任务直接对应到居室中处于特定位置的特定设备(家具/家电),进而规划人形机器人本体从当前位置走到任务设备前方的路径,然后调用分层立体几何模型中存储的这个设备的结构、操作方式,规划人形机器人本体肢节的运动轨迹,完成对设备的操作。
如果人形机器人供货商在出厂前已经针对这个/类设备的使用过程进行了强约束的物理启发端到端人工智能网络训练 (例如以3D视觉信息+预定义格式的居室门及门把手的结构信息作为输入端信息而进行训练以得到端到端开门动作序列),则当人形机器人走到任务设备前方、面向任务设备之后,其运算核心就可以将预存的当前设备的几何、色彩、纹理结构与3D视觉内容进行配准,以屏蔽视野中的无关信息 (例如居室门上的挂饰、冰箱上放置的花瓶、微波炉上的商标),将这个设备从视野中切分出来,使当前的输入端信息与训练时用的输入端信息高度匹配(从而大幅度降低对人工智能网络泛化能力的要求) ,然后调用端到端人工智能网络的推理操作接口,执行推理运算、输出肢体动作,最终完成客户下达的任务。
当然,在上述过程中,必须执行"防呆(/坏)操作",即,实时监测、识别意外入侵的物体,例如淘气小朋友(人形机器人:"对,说的就是你!")的手,优先执行相应的停止/避让/保护动作。
同样重要的是,人形机器人的运算核心必须实时更新上述分层立体几何模型,更新的依据是最新采集的居所内图像、点云信息,以及以历史数据为基础的、将几何元素与实际家具/家电实现配准的运算结果。
1.2.3.6 任务场景降维引发分层模块化架构(MPC+WBC)的回潮
对于使用单件家具/家电完成的居家服务任务来说,基于居所分层立体几何模型的任务场景降维,使任务复杂度显著降低,从而使当下被热捧的端到端人形机器人控制架构的必要性相对降低,分层模块化架构(例如MPC+WBC)实用价值获得提升。
更重要的是,相比于端到端架构,分层模块化架构在可解释性维度上具备极大的优势,在实用价值提升的前提下将获得更多的重视,有可能与端到端架构一起,以互为"热备用"系统、按任务种类选用的形式,同时存在于室联人形机器人之中。
2 室联人形机器人
本节基于第1.1.6节所述的、应对人形机器人面临的安全性风险 的思路 -- 将部分传感器移出人形机器人本体,以及,基于第1.2.3节所述的、应对人形机器人面临的维度灾难的思路 -- 基于居所分层立体几何模型的任务场景降维,简要介绍室联人形机器人的设计思路。
2.1 基本思路:室侧系统与机器人本体系统相分离
本节将对第1.1.6节的室联人形机器人思路予以具象化,并且进行扩充。
2.1.1 将部分感知设备移到各居室的天花板(室联感知)
将人形机器人感知设备的一部分设置在各居室的天花板上、与机器人本体进行实时射频通信,利用这些传感器的位置、朝向、数量、体积、功耗不受人形机器人结构限制的优势,利用其视野开阔的优势,实现对居所任务环境的全方位、实时感知。
2.1.2 将部分算法、全部管理子系统卸载到外置机箱(边端一体计算架构)
人形机器人整体体积受限,除了支撑结构、动力系统、控制系统、电源必须占用的内部空间之外,还需要将很多空间用于使其可见器官像人,例如,用体积足够、形状逼真的弹性材料模拟人类的肌肉组织,这将导致其内部容积进一步减少。厚实、连续、低导热率的高分子弹性材料对散热能力的制约,也将严重影响其控制系统的设计。
为此,文档《室联人形机器人控制系统框架设计》借鉴车路协同汽车自动驾驶系统,在居所中增设了人形机器人外置机箱,将尽可能多的、可以容忍射频信道传输延迟 (从发送端应用层数据帧尾部进入通信协议栈到接收端应用层数据帧头部离开通信协议栈的时间差,即所谓 "尾进头出")的算法放置其中,以较低的成本+较高的冗余度,提高人形机器人控制系统在安装空间、电池续航力、可靠性、可维护性、散热功率等方面的上限。
基于同样的考虑,将全部管理子系统(非实时性)从人形机器人本体移到了外置机箱。
本节所述思路,可以视为工信部《人形机器人创新发展指导意见》述及的"云边端一体计算架构"的一个子集:边端一体计算架构,外置机箱中的是边缘计算核心(以下称为"室侧运算核心"),人形机器人本体内置的是终端计算核心。
2.1.3 将语言处理子系统卸载到居家口语大模型楼宇服务器
高拟人度人形机器人的居家服务,要求TA必须具备高度拟人化的居家口语交流能力,并且必须能够从人类的语音中提取任务内容,业内已有相关的尝试[1]。
目前,实时性足以应对日常语音交流的大模型服务器的成本亦然很高,其功耗更远非人形机器人携带的电池所能承受。所以,对于实用化的居家服务人形机器人,当前的设计者必须将其语音处理子系统卸载到外部机箱。
考虑大模型服务器可以提供一对多的语音处理服务,在楼宇或小区设置居家口语大模型服务器,应该是一个工程上可接受的折中方案。
2.2 深入应用FPGA的室联人形机器人控制系统框架设计图
图2即为体现第2.1节所述思路的、深入应用FPGA的室联人形机器人控制系统框架设计图。

图2 深入应用FPGA的室联人形机器人控制系统框架设计图(建议下载到PC再看)
图2基于具体的职能,将6个子系统,即系统管理、感知、运算、控制、芯片间数据实时传输、语音收发,按照橙、浅蓝、红、绿、深蓝、棕予以着色,以方便读者理清模块之间的协作关系,降低决策者做出实质性决策的门槛 -- 这里指的是,在纯粹技术维度上的门槛,其他维度的阻力不在本文的考虑之列。
图2所述控制系统的详情,请参阅《室联人形机器人:家政服务任务结构化、技术要点、深入应用FPGA的控制系统框架设计(整合版A)》的第3节(篇幅较长,阅读之前请先看在文档起始处提供的、这一节的4层子目录,以了解所述内容的整体框架)。
另外,关于图2的简化架构(去掉了室联部分)进化到ASIC架构的过程,请参阅笔者的另一篇文章:《人形机器人控制系统核心芯片从SoC到ASIC的进化路径》。
2.3 室侧传感器布设示意图
按照第2.1.1节所述的思路,图3以一个典型的室内3D模型图为基础,演示了如何在天花板上布设室侧传感器。

图3 在居所室内天花板上布设室联人形机器人的室侧传感器
如图3所示,在每间居室的天花板的四个角上(若有遮挡视线的高大家具则在其外立面与天花板边缘的交叉处)布设RGB-D摄像头(蓝色线段指示的是摄像头可探测的方锥空间区域的中轴线方向),每个摄像头采集视野内物体的空间位置信息,各摄像头采集的帧序列经各自输出的有线信道(例如光纤,在居所装修之前完成线路布设)传输到室侧系统中的外置机箱(见图2中的"外置机箱、天花板"区域)。
2.4 传感器成本问题
在图3的例子中,一个两室一厅、一厨、一卫的居所,需要布设22个RGB-D摄像头。尽管室内空间尺寸有限、室内空间的物理参数对传感器友好(如第1.2.3.1节所述)能在一定程度上限制RGB-D摄像头的成本,尽管多视角布置的普通摄像头可以借助后端算法初步替代RGB-D摄像头、获得较为粗略的3D场景信息,但由于摄像头的数量众多,仍将导致较大的成本压力。
笔者认为,这种情况与几年前智驾汽车的传感器困境类似,解决之道只能是:基于巨大的市场容量而堆数量、摊薄成本。
这也很可能导致,成功的室联人形机器人拓荒者,只能是资金雄厚的、能够挺过前期"烧钱-铺量"阶段的企业。
3 室联人形机器人居家服务的工作流程图
让我们考虑一个应用场景的这个时刻:
某客户新近购入一个室联人形机器人,供货商已经完成了机器人本体、室侧系统的安装与调试,室内装修、室内家具摆设也已经完成,即将启动系统初始化工作。
本节以这个时间点为起始,以流程图的形式推演室联人形机器人入室服务的工作过程,协助读者具象化地了解"室联"理念如何在人形机器人领域发挥作用。

图4 室联人形机器人入室服务的工作流程图(建议下载到PC再看)
必须说明的是,图4针对的是可以归类为"面向特定设备(家具/家电)" 的服务任务,这类任务由于具备较好的结构化条件、预训练条件,从而可以采用第1.2.3.5节所述的基于居所分层立体几何模型的任务场景降维,可以采用第1.2.3.4 所述的使用单件家具/家电执行服务任务的强约束物理启发端到端机器学习,能够以接近于现有的端到端人形机器人功能训练任务的难度,完成实用化的居家服务任务。
对于更为复杂的非结构化任务,例如扶助老人行走,则有待进一步的研究。
事实上,即使是在执行这类复杂任务的过程中,人形机器人运算核心仍然可以基于第1.2.3.3所述的居所配置文件、第1.2.3.5节所述的居所分层立体几何模型,屏蔽视觉/3D背景中的冗余信息(例如冰箱贴、吊灯),从而大幅度简化任务。
4 关于"具身智能"的思考
具身智能的本源思路是:在功能上由设备本身完成包括"感知-决策(运算)-执行(控制)"的整个反馈控制回路,即所谓**"具身"** ;其终极目标是具备类似于人的、针对物理世界的、通用的认知--决策--干预能力,即所谓**"智能"**。
而如第2、3节所述,室联人形机器人在这两个技术方向都进行了"降维",有悖于上述理想。
本节就此略作思考。
4.1 室联人形机器人在"具身"、"智能"两个方面的技术降维
室联人形机器人为了具备更高的安全性、更强大更完善的运算能力,将一部分感知、运算资源设置在"人"体之外 -- 这违背了"具身"的技术理想。
同时,如第3节的流程图所述,室联人形机器人尽管在执行面向家具/家电的"微观"动作时需要基于"端到端"预训练的知识,但在完成室内建模、路径规划等"宏观"任务时,却大量依赖于先验知识,而非基于世界模型的通用知识,从而违背了"智能"的技术理想。
4.2 通用智能执念 vs 产业化变现
笔者认为,前述具身智能的本源思路,实质上是一种由技术精英秉持的理想主义,或者说,是一种追求完美的执念。
在目前,或者说在可预见的几年甚至十几年之内,限于基础技术的发展水平,这一执念的实现,面临非常大的不确定性(这也是近年来人形机器人团队的数量爆发性增加但其产品的实用价值仍被广泛质疑的根本原因)。
然而,人形机器人产业的发展,又必须尽快实现产业化 或者说尽快实现一定程度的产业化,以产业化为漫长且耗费巨大的前瞻性研发工作提供资源、形成自我造血的正反馈迭代(至少是浅度负反馈迭代),这就导致,以居家服务为代表的、需求明确的(重视情绪价值)、准结构化的(技术难度可降维)、可预见的变现应用场景,必将被一部分人形机器人企业所重视。
于是,在现有的(以及几年内可预见的)技术基础之上,借助室联人形机器人之类"忘却初心"的、以"针对痛点+难度降维"为主旨的实用主义系统架构 ,符合市场的需求(够用就好、无问理念),必将被上述重视加速变现、希望以"人"养人、秉持先生存后发展原则的企业所关注、实施。
4.3 具身之"身"的升维与企业的战略先机
换一个角度思考,我们为什么不能以室联人形机器人为契机,将"具身"之"身"的概念推向更高的维度?
具体来说就是:
将人形机器人视为一个针对应用场景的分布式系统,人形部分仅仅是这个系统的一个以执行为主的、提供表象情绪价值的子系统,其他子系统包括第2.1.1、2.1.2、2.1.3小节所述的部分用于提供更完备的感知能力、更完善的运算核心,甚至还可以将楼宇供电系统、安防系统、卫星授时系统等基础设施也视为这个分布式系统的子系统。
即:
居室即机器人,楼宇即机器人,社区即机器人,城市即机器人 ...... ......
以上皆为"身"。
笔者认为,从系统的可扩展性来看,这应该是机器人的长远发展方向(正如几十年来由众多科幻电影所推演的)。
如果这个发展方向是正确的,则,那些不拘泥于人形机器人本体、及早在室联人形机器人方向进行实质性开拓的企业,就是在战略上抢得了先机。
5 结语:突破同质化
我国目前已有超过150家人形机器人企业(链接:国家发展改革委:要着力防范重复度高的人形机器人产品"扎堆"上市),从招聘平台的人才需求来看,各个人形机器人研发团队采用的底层技术仍然是CPU+GPU+软件,整体布局仍然是将所有传感器、控制器集中在机器人本体,技术维度的同质化现象非常突出。
针对这一问题,不论是以深入应用FPGA实现控制系统底层技术的升级换代、实现差异化 ,还是以室联人形机器人实现应用场景复杂度的降维、安全性的升维、系统可扩展性的跃升、具身智能理念的拓展 ,都是突破技术同质化、在150多家友商中脱颖而出的契机。
希望业内决策层、潜在投资人重视本文所述的技术思路,予以实施。
参考文献:
1 曾凯,王耀南,谭浩然,等.AI大模型驱动的具身智能人形机器人技术与展望.中国科学:信息科学,2025,55:967--992, doi:10.1360/SSI-2024-0350
1 Zeng K,Wang Y N,Tan H R,et al.Prospects and technology of embodied intelligent humanoid robots driven by AI large models.Sci Sin Inform,2025,55:967--992,doi:10.1360/SSI-2024-0350