（1-2）人形机器人感知系统概述：环境感知总体架构+“感知-控制-规划”的一体化趋势

1.2 环境感知总体架构

人形机器人的环境感知系统通常采用分层化、模块化的总体架构设计，以应对多模态信息复杂、实时性要求高以及系统协同难度大的技术特点。典型的感知架构可划分为传感器层、感知算法层以及融合与决策层，各层在功能上相对独立，又通过数据流和反馈机制形成紧密耦合，共同支撑机器人对复杂环境的稳定理解与自主行为生成。

1.2.1 传感器层

传感器层是人形机器人环境感知系统的基础组成部分，其核心作用是对外部环境信息与机器人自身状态进行多模态、实时采集，为感知算法层和融合决策层提供可靠的数据来源。由于人形机器人需要在复杂、动态且高度不确定的环境中执行类人运动与交互任务，传感器层必须同时具备信息覆盖全面、时序一致性强以及系统鲁棒性高等特征。

从功能上看，传感器层主要承担三类感知任务：其一是外部环境感知，包括环境空间结构、障碍物分布、目标物体属性以及动态对象的运动状态等；其二是机器人自身状态感知，涵盖关节运动状态、躯干姿态、重心变化以及足底接触信息，为运动控制与动态稳定性提供基础反馈；其三是交互信息采集，用于支持人机交互和物体操作过程中的语音、力觉与触觉感知。

在系统构成上，传感器层通常采用多类型传感器协同工作的方式，通过分布式布局形成覆盖全身的感知网络。视觉传感器主要用于环境语义理解与空间感知，是目标识别、定位和导航的重要信息来源；激光雷达在空间几何感知方面具有较强的稳定性，可作为视觉感知的重要补充；惯性测量与姿态传感器用于实时感知机器人整体姿态与运动状态，是动态平衡控制的关键基础；力觉与触觉传感器主要部署于足底和手部，用于感知接触状态、压力分布与交互力信息；此外，声学与近距离辅助传感器为语音交互和局部避障提供支持，增强系统在复杂环境下的适应能力。

为了保证多模态感知数据的可用性，传感器层还需配套数据传输与基础校准机制，实现不同传感器之间的时间同步与空间坐标统一。通过统一的数据接口与同步机制，传感器层能够向上层算法稳定输出时序一致、空间一致的原始感知数据，避免因数据错位或延迟引发感知与控制偏差。

总体而言，传感器层并非孤立运行的感知单元，而是感知---计算---决策闭环中的起点。其设计质量直接决定了上层感知算法的性能上限，也是实现复杂环境理解、稳定运动控制和自然人机交互的前提基础。在分层架构中，传感器层通过与感知算法层和融合决策层的协同工作，共同构建起人形机器人对真实世界的可靠感知能力。

1.2.2 感知算法层

感知算法层是人形机器人环境感知系统的核心计算单元，其主要任务是对传感器层采集的多模态原始数据进行处理、分析与理解，将高噪声、高冗余、非结构化的感知数据，转化为结构化、可计算、可用于决策的环境表征。与传感器层侧重"信息获取"不同，感知算法层关注的是"信息理解"，是连接物理世界与机器人智能决策的关键桥梁。

在人形机器人应用场景中，感知算法层需要同时满足实时性、鲁棒性与泛化能力等多重要求。一方面，机器人需在动态环境中快速响应，算法延迟直接影响运动稳定性与安全性；另一方面，环境的不确定性与多样性要求算法具备较强的抗干扰能力和跨场景适应能力。因此，该层通常采用多级处理、模块化组合的设计思路，将复杂感知任务拆分为若干相互协作的算法模块。

核心功能定位

从功能角度看，感知算法层主要承担如下3项核心任务：

（1）对原始感知数据进行预处理与质量提升。通过去噪、校正、补偿和格式统一等操作，提高数据的可靠性与一致性，为后续分析奠定基础。

（2）从高维、多模态数据中提取具有判别力的环境特征。包括空间几何特征、外观特征、运动特征以及初步语义特征，用于描述环境中"有什么、在哪里、如何变化"。

（3）实现环境要素的感知与理解。通过目标检测、目标跟踪、场景识别与语义分析等算法，构建对环境结构和状态的中间层表达，为融合与决策层提供可直接利用的信息。

典型算法处理流程

在人形机器人系统中，感知算法层通常按照"由低到高"的处理逻辑组织，其整体流程可概括为以下几个阶段。

（1）数据预处理阶段

该阶段主要针对传感器原始数据中的噪声、不完整性和时空不一致问题。常见处理包括视觉图像的畸变校正、亮度与对比度自适应调整，点云数据的滤波与下采样，以及惯性与力觉数据的漂移补偿等。预处理的目标不是获取语义信息，而是尽可能保留真实环境特征，同时降低后续计算负担。

（2）特征提取与表示阶段

在完成基础清洗后，算法需要从高维数据中提取紧凑且具有区分度的特征表示。例如，从图像中提取边缘、纹理或深度特征，从点云中提取几何结构特征，从时序数据中提取运动与变化特征。当前主流方法以深度学习为核心，通过卷积神经网络、点云网络或时序模型实现自动化特征学习，使系统能够在复杂环境中保持较强的适应能力。

（3）环境要素感知阶段

在特征基础上，感知算法层进一步完成对环境要素的识别与建模，包括障碍物检测、目标分类、空间定位、动态目标跟踪以及地形分析等。对于人形机器人而言，这一阶段不仅关注"是否存在"，还需关注"可通行性""可交互性"等与运动和操作直接相关的属性。

（4）初级语义理解阶段

为支撑更高层次的决策，感知算法层通常会引入初步的语义理解能力，如物体类别识别、场景类型判断以及简单的人机交互意图解析。该阶段并不直接生成最终决策，而是为融合与决策层提供具有语义标签和置信度的信息描述。

关键技术挑战

在人形机器人应用中，感知算法层面临的挑战主要体现在以下3个方面。

（1）高维数据的实时处理压力：视觉图像、三维点云和多路时序信号的并行处理对计算资源提出了极高要求，如何在有限算力条件下实现高精度感知，是算法设计中的核心问题。

（2）动态与非结构化环境的鲁棒性问题：人类生活环境中存在大量不可预测因素，如光照变化、目标遮挡和快速运动对象，这些都会导致感知结果不稳定，需要算法具备较强的自适应能力。

（3）感知结果与运动控制的耦合问题：人形机器人的感知结果往往直接影响运动规划与控制策略，算法输出不仅要准确，还需具备稳定的时序一致性，以避免感知抖动引发控制震荡。

层间协同关系

感知算法层处于感知系统的中间位置，对下承接传感器层的多模态原始数据，对上为融合与决策层提供结构化环境描述。在系统运行过程中，该层不仅是数据处理单元，也会通过反馈机制参与整体协同，例如根据任务需求动态调整处理精度或关注区域，从而实现计算资源的合理分配。

总体来看，感知算法层是人形机器人实现"从感知到理解"的关键环节，其性能直接决定了环境感知的深度与可靠性，也是支撑高层智能决策和复杂行为生成的基础。

1.2.3 融合与决策层

融合与决策层是人形机器人环境感知系统的高阶计算核心，其主要任务是将传感器层采集的多模态数据与感知算法层提取的特征信息进行统一融合，并在此基础上生成稳定、合理的智能决策。相较于传感器层的"数据采集"和感知算法层的"信息理解"，融合与决策层关注的是整体感知结果的协同、可靠性评估以及智能行为生成，直接决定了机器人在复杂环境中的自主能力与安全性。

核心功能定位

在人形机器人应用中，融合与决策层主要承担以下功能：

多模态信息融合：将视觉、激光雷达、惯性测量、触觉、声学等多源异构数据融合为统一环境表征，消除单模态的不确定性，实现互补感知。
环境状态建模：对空间布局、动态目标、交互对象及语义关系进行统一建模，生成可用于规划和控制的中间表示，如栅格地图、语义地图或拓扑图。
决策与动作规划：基于融合后的环境信息，结合任务目标、运动约束和安全规则，生成运动轨迹、操作指令及交互策略。
自适应与反馈调节：根据环境变化和执行结果动态调整感知策略与决策权重，确保机器人在不确定、动态场景下仍能稳定运行。
核心算法与处理流程

在人形机器人应用中，融合与决策层的处理流程可概括为以下几个阶段：

（1）多模态融合阶段：多模态信息存在结构差异、采样频率不同、噪声分布不一致等问题，融合阶段的核心目标是生成统一且可靠的环境表示。常用的多模态融合策略包括：

早期融合（数据级融合）：将不同模态的数据映射到统一坐标或时间尺度后进行直接组合，如将点云投影到视觉图像形成深度-彩色复合表示。
中期融合（特征级融合）：分别提取各模态特征，通过注意力机制、加权求和或图神经网络实现特征融合，适合处理异构信息和动态权重调整。
晚期融合（决策级融合）：各模态独立生成感知输出，再通过贝叶斯推理、置信度加权或投票机制融合决策结果，适合实时性要求高的场景。

（2）环境状态建模阶段：融合后的信息被用于构建环境模型，包括：

空间模型：利用栅格地图、点云网格或拓扑图描述环境结构，支持路径规划与避障。
动态目标模型：对移动目标进行跟踪、预测，并生成状态向量（位置、速度、加速度、意图），为避碰与交互提供数据。
语义模型：提取物体类别、功能属性及人机交互意图，将物理空间信息与认知知识结合，实现"环境理解+任务匹配"的能力。

（3）决策与规划阶段：在环境模型基础上，决策与规划模块生成机器人的如下动作策略：

行为决策：确定高层任务行为，如行走、抓取、避障、交互。
运动规划：根据任务目标与环境约束生成可执行轨迹，如步态调整、臂部操作路径、重心移动策略。
安全与约束处理：实时评估动作的碰撞风险、动力学约束和环境变化，调整动作规划以保证安全和稳定性。

（4）自适应与反馈调节阶段：机器人在执行过程中需持续监测环境变化和自身状态，通过闭环反馈调整决策策略。例如：

动态调整传感器采样率和感知算法处理精度，以平衡计算负载和感知精度。
根据环境可靠性评估（如视觉遮挡、激光雷达盲区）调整融合权重。
任务执行异常时触发补救策略，如路径重规划或动作重试。
关键技术挑战

多模态信息的不确定性与异构性：不同传感器的数据特性差异大，如何在保证实时性的前提下实现高精度融合是核心问题。

动态环境的预测与适应能力：机器人必须对移动目标、环境变化以及交互对象的意图进行预测，并将预测结果纳入决策过程。
决策的实时性与可解释性：在复杂环境中，决策必须快速生成且可被验证，尤其涉及安全、交互和高风险操作时，可解释性成为必要要求。
层间协同与资源优化：融合与决策层需与传感器层和感知算法层保持高效协同，同时在算力受限的端侧系统中实现计算资源的最优分配。
层间协同关系
下承感知算法层：融合与决策层依赖算法层提供的结构化环境信息与特征表示，利用多模态特征生成完整环境表征。
上启行为执行与运动控制层：融合与决策层输出动作决策与路径规划，直接驱动机器人运动与操作，同时将执行反馈回传，实现闭环控制。
横向动态反馈：在任务或环境变化时，可向传感器层或算法层发送调整指令，如提升关键传感器采样率或调整特征提取关注区域，以实现系统自适应。

总而言之，融合与决策层是人形机器人实现复杂环境自主行动的关键枢纽，其性能决定机器人对动态、非结构化场景的响应能力和智能水平。通过多模态融合、环境建模、智能决策与闭环反馈，该层将高维感知信息转化为可执行行为，是机器人从"感知"到"理解"再到"行动"的核心环节。

1.3 "感知-控制-规划"的一体化趋势

在人形机器人从"实验室演示"走向"真实场景应用"的过程中，传统"感知→规划→控制"串行分离式架构的局限性日益凸显（感知输出静态环境信息、规划生成固定路径、控制执行预设动作的模式），难以应对动态非结构化环境的不确定性、高自由度运动的实时性需求以及复杂交互的协同性要求。在此背景下，感知-控制-规划一体化已成为行业核心技术趋势，其核心逻辑是打破模块间的壁垒，实现"数据共享、决策协同、动态闭环"，通过深度耦合的架构设计，让机器人在复杂场景中具备更快速的响应能力、更强的鲁棒性与更自然的交互表现。

1.3.1 一体化趋势的本质

感知-控制-规划一体化（以下简称"一体化架构"）是指将环境感知、运动规划、姿态控制三大核心模块从"串行传递"转变为"并行协同、数据互通、决策耦合"的架构设计。其本质是构建一个"感知反馈-动态规划-实时控制"的闭环系统：感知模块不仅提供环境与自身状态数据，还直接参与规划目标的动态调整；规划模块不再生成固定路径，而是输出适配实时感知的动态约束；控制模块在执行动作的同时，将力/姿态反馈实时回传给感知与规划模块，形成"数据-决策-执行-反馈"的持续迭代优化。

传统分离式架构与一体化架构的核心差异体现在数据流向、决策逻辑、响应特性等多个维度，具体对比如表1-3所示。

|-------|--------------------------------------------------------|--------------------------------------------------------|
| 对比维度 | 传统分离式架构 | 感知-控制-规划一体化架构 |
| 数据流向 | 单向串行传递：感知→规划→控制，模块间数据交互仅为"输出→输入"，无反向反馈 | 双向闭环流通：感知数据支撑规划与控制，控制反馈修正感知与规划，规划约束指导感知采样策略 |
| 决策逻辑 | 各模块独立优化：感知优化数据精度，规划优化路径长度，控制优化跟踪误差，缺乏全局协同 | 全局协同优化：以"机器人整体任务目标"（如稳定行走、安全交互）为核心，联合优化感知精度、规划效率与控制鲁棒性 |
| 响应特性 | 延迟累积：各模块处理延迟叠加（如感知延迟50ms+规划延迟100ms+控制延迟30ms），总延迟≥180ms | 并行处理+动态反馈：模块间并行计算，反馈延迟≤50ms，适配高动态场景（如跑步、突发碰撞） |
| 环境适应性 | 依赖预定义场景：规划路径基于感知输出的静态环境模型，动态变化时需重新感知-规划，适应性差 | 动态自适应：感知实时更新环境模型，规划同步调整路径，控制快速响应姿态变化，无需重新初始化 |
| 算力消耗 | 模块间数据冗余处理：感知数据需重复存储、转换，整体算力消耗高 | 数据共享与轻量化：统一数据表征，避免冗余处理，通过协同优化降低整体算力需求 |

例如，双足行走场景中，传统架构需先通过感知模块构建地面模型，再由规划模块生成固定步幅的步态，最后由控制模块执行关节运动；而一体化架构中，感知模块实时捕捉地面起伏与自身重心变化，规划模块动态调整步幅、步频，控制模块同步优化关节力矩，三者同步响应，可在毫秒级内适应地面凸起等突发情况，避免倾倒。

1.3.2 一体化趋势的核心驱动因素

感知-控制-规划一体化并非技术演进的偶然选择，而是人形机器人在复杂场景中实现"稳定、高效、自然"运行的必然要求，其核心驱动因素可归结为如下四大类。

动态非结构化环境的不确定性倒逼

人形机器人面临的真实环境（如家庭、工厂、公共空间）具有动态变化、规则模糊、干扰频发等特征：地面可能存在突发凸起/凹陷、行人可能突然横穿路径、物体可能被临时移动。传统分离式架构中，感知模块需重新采集数据、规划模块需重新生成路径、控制模块需重新调整动作，整个过程存在明显延迟，易导致机器人失稳或碰撞。而一体化架构通过"感知-规划-控制"的实时协同，可在环境变化的瞬间完成数据更新、路径调整与动作修正，从根本上提升环境适应性。

高动态运动与精细化交互的实时性需求

人形机器人的高自由度动态运动（如跑步、跳跃、快速转向）与精细化交互（如精准递物、协同组装）对系统响应速度提出了严苛要求：动态运动中，重心与姿态的变化速率可达毫秒级，需控制模块在10-30ms内响应感知反馈；精细化交互中，手部与物体的接触力变化需实时反馈至规划模块，调整抓取姿态。传统分离式架构的延迟累积（通常≥100ms）无法满足这些需求，而一体化架构通过并行计算与数据共享，将端到端延迟压缩至50ms以内，为高动态运动与精细化交互提供保障。

硬件算力与算法技术的支撑赋能

近年来，随着端侧异构计算硬件（如FPGA、ASIC专用芯片、高算力嵌入式GPU）的发展，为一体化架构提供了硬件基础。例如，特斯拉Optimus搭载的FSD芯片可实现每秒214TOPS的算力，支持感知、规划、控制模块的并行计算；波士顿动力Atlas采用的定制化FPGA芯片，可快速处理多传感器数据与控制指令。同时，深度学习、强化学习、多模态融合等算法的突破，为一体化建模提供了技术支撑------如端到端强化学习模型可直接学习"感知输入→控制输出"的映射关系，避免模块间接口设计的复杂性；图优化算法可实现感知数据、规划路径与控制参数的联合优化。

实际应用场景的功能落地需求

人形机器人的核心价值在于融入人类社会，实现家庭服务、工业协同、公共救援等实际应用。这些场景对机器人的核心诉求是"安全、自然、高效"：家庭服务中需避免碰撞老人/儿童，工业协同中需与工人同步动作，公共救援中需快速适应复杂地形。传统分离式架构的模块独立决策易导致动作僵硬、响应迟缓，难以满足这些需求。而一体化架构通过全局协同优化，可实现"感知环境风险→规划安全路径→控制平稳动作"的无缝衔接，让机器人的行为更贴近人类预期，真正落地实际应用。

1.3.3 一体化架构的核心技术特征

感知-控制-规划一体化并非简单的模块拼接，而是通过数据、算法、硬件的深度融合，形成了具有"动态协同、全局优化、自适应调整"特性的系统，其核心技术特征体现在以下4个方面。

统一数据表征与共享平台

一体化架构的基础是"数据层面的打通"，通过构建统一的数据表征框架与共享平台，避免模块间数据的冗余转换与存储：

统一数据表征：将感知数据（视觉图像、LiDAR点云、力/触觉信号）、规划数据（路径参数、目标坐标）、控制数据（关节角度、力矩指令）转换为统一的"机器人-环境"状态空间表征（如基于张量的多模态特征融合），实现跨模块数据的直接调用；
实时数据共享：通过高速总线（如Ethernet/IP、CANFD）与共享内存技术，构建低延迟数据传输通道，让感知模块的实时数据（如IMU姿态、足底力反馈）可被规划与控制模块直接读取，控制模块的执行状态（如关节负载变化）可实时反馈至感知与规划模块，数据传输延迟≤10ms。

例如，优必选WalkerX机器人采用的"RoboCore"数据共享平台，将多传感器数据、规划路径数据、控制指令统一存储于共享内存，各模块通过订阅-发布机制实时获取所需数据，避免了传统架构中数据拷贝与转换的延迟。

动态协同决策机制

一体化架构的核心是"决策层面的协同"，打破各模块独立优化的局限，以"全局任务目标"为核心进行联合决策：

感知-规划协同：感知模块不再仅输出静态环境模型，而是根据规划模块的路径需求，动态调整感知采样策略（如对路径前方的障碍物提升视觉传感器采样率，对无关区域降低采样频率）；规划模块则基于感知模块的实时环境更新，动态调整路径约束（如遇到突发障碍物时，实时生成避障路径，而非重新规划全局路径）；
规划-控制协同：规划模块输出的不再是固定路径，而是"动态路径约束"（如步幅范围、关节角度限制），控制模块在约束范围内，结合实时姿态反馈（如IMU数据、关节扭矩反馈）优化控制指令（如调整关节力矩以维持平衡）；控制模块的执行误差（如路径跟踪偏差）会实时反馈至规划模块，修正后续路径约束；
感知-控制直接反馈：在高动态场景中，感知模块的关键数据（如突发碰撞的力反馈、躯干姿态突变的IMU数据）可直接反馈至控制模块，触发应急控制策略（如调整关节力矩以恢复平衡），无需经过规划模块中转，进一步降低响应延迟。
端到端优化与模型融合

一体化架构通过算法层面的端到端建模与模型融合，简化模块间的接口设计，提升了系统整体性能：

端到端学习模型：采用强化学习（RL）、深度学习（DL）构建端到端模型，直接学习"多模态感知输入→控制输出"的映射关系。例如，通过深度强化学习训练机器人的行走模型，输入为视觉图像、IMU数据、足底力反馈，输出为关节角度与力矩指令，模型在训练过程中自动优化感知特征提取、路径规划与控制执行的协同关系，避免人工设计模块接口的复杂性；
符号主义与连接主义融合：端到端模型虽能实现快速响应，但缺乏可解释性与鲁棒性，因此一体化架构通常融合"符号主义"（如规则推理、动力学模型）与"连接主义"（如深度学习、强化学习）：符号主义提供结构化的动力学约束（如关节运动极限、重心平衡规则），连接主义提供数据驱动的自适应能力（如环境变化的动态适配），两者结合既保证了系统的稳定性，又提升了泛化能力。

例如，波士顿动力Atlas机器人的跑步控制采用"动力学模型+强化学习"的融合方案：动力学模型提供关节运动的物理约束，强化学习模型基于感知反馈（如地面起伏、自身姿态）动态调整控制参数，实现高速跑步时的稳定控制。

异构硬件协同计算

一体化架构的高效运行依赖硬件层面的异构协同计算，通过不同类型的计算单元适配各模块的算力需求，实现"算力按需分配、任务并行执行"：

算力分层分配：将感知模块的多模态数据处理（如视觉图像特征提取、LiDAR点云分割）分配给GPU/TPU，利用其并行计算能力提升处理速度；将规划模块的路径优化（如动态路径搜索、约束求解）分配给CPU，利用其逻辑计算能力保证决策精度；将控制模块的实时指令生成（如关节力矩计算）分配给FPGA/ASIC，利用其低延迟特性保证执行速度；
硬件级同步机制：通过高精度时钟（如PTP精密时间协议）与硬件中断机制，实现异构计算单元的同步协同，确保感知数据处理、路径规划、控制指令生成的时间戳统一，避免因硬件延迟导致的协同失调。

例如，特斯拉Optimus的硬件架构采用"CPU+GPU+FPGA"的异构组合：GPU负责视觉、LiDAR等多模态感知数据的处理，CPU负责路径规划与任务决策，FPGA负责关节控制指令的实时生成，三者通过硬件级同步机制实现协同，端到端延迟控制在30ms以内。

1.3.4 一体化架构的技术挑战

尽管感知-控制-规划一体化具有显著优势，但当前行业仍面临四大核心技术挑战，制约其大规模落地：

多域数据的统一建模与融合难题

感知数据（高维、异构、噪声大）、规划数据（低维、结构化、动态变化）、控制数据（实时、高精度、强约束）的特征差异巨大，如何构建统一的状态空间模型，实现多域数据的高效融合，是一体化架构的核心难点：

高维感知数据的降维与结构化：视觉图像、LiDAR点云等高维数据需提取低维、具有判别性的特征，且需与规划、控制的结构化数据（如路径参数、关节角度）保持语义一致性，避免融合时出现信息错位；
动态数据的实时更新与一致性维护：环境与机器人自身状态的动态变化，要求统一模型实时更新，且需保证不同模块读取的数据一致性（如规划模块与控制模块读取的重心位置数据一致），否则会导致协同决策失误。
实时性与算力消耗的平衡挑战

一体化架构的并行协同与端到端优化需要大量算力支撑，但人形机器人的端侧算力有限（尤其是电池供电的移动机器人），如何在保证实时性的前提下降低算力消耗，是当前人形机器人行业面临的核心矛盾：

端侧轻量化算法设计：复杂的深度学习、强化学习模型在端侧运行时，面临"精度与算力"的权衡，模型简化会导致性能下降，模型复杂则会超出端侧算力的承载能力；
动态算力分配策略：在不同场景下，感知、规划、控制模块的算力需求不同（如动态运动时控制模块需更多算力，静态交互时感知模块需更多算力），需要设计自适应算力分配策略，实时调整各模块的算力占比，避免算力浪费。
动态约束下的全局协同优化难度

一体化架构的全局优化需考虑多维度动态约束（如关节运动极限、环境障碍物约束、能量消耗约束），这些约束相互关联、动态变化，导致优化问题的复杂度呈指数级增长：

约束的动态更新与冲突消解：环境变化（如突发障碍物）会新增约束，任务调整（如从行走切换为抓取）会改变约束优先级，需实时更新约束条件，并消解约束冲突（如避障约束与路径最短约束的冲突）；
优化算法的实时性：传统全局优化算法（如凸优化、非线性规划）在高维动态约束下计算量巨大，难以满足毫秒级响应要求，需开发高效的近似优化算法或启发式算法。
鲁棒性与泛化性的保障问题

真实场景的多样性与不确定性（如不同地面材质、不同交互对象、不同任务需求），要求一体化架构具备强鲁棒性与泛化性，但当前技术仍存在如下局限：

未知场景的自适应能力：端到端模型的泛化能力依赖大量训练数据，而真实场景的多样性难以通过训练数据完全覆盖（如未见过的地面材质、未接触过的交互对象），导致模型在未知场景中性能下降；
故障容错与冗余设计：一体化架构的模块深度耦合，某一模块的故障（如传感器失效、算力不足）可能导致整个系统崩溃，需设计冗余机制（如多传感器备份、模块级故障隔离），提升系统的可靠性。

总而言之，感知-控制-规划一体化是人形机器人技术发展的必然趋势，其本质是通过"数据共享、决策协同、硬件协同"，打破传统分离式架构的模块壁垒，解决动态非结构化环境的不确定性、高动态运动的实时性、复杂交互的协同性等核心挑战。这一趋势的落地，不仅需要算法层面的创新（如统一表征、协同优化），还需要硬件层面的支撑（如异构计算平台、高速总线），更需要"软件-硬件-场景"的深度耦合。

未来，随着端侧算力的提升、轻量化算法的成熟以及多模态融合技术的突破，一体化架构将逐步从高端机型普及至中低端机型，为人形机器人在家庭服务、工业协同、公共救援等场景的大规模应用提供核心技术支撑。可以说，感知-控制-规划一体化的成熟度，直接决定了人形机器人从"技术原型"到"实用产品"的跨越速度，是行业竞争的核心制高点。