（2-1）常用传感器与基础原理：视觉传感器

本章系统介绍了人形机器人常用的核心传感器及其基础原理，包括视觉、激光雷达、惯性测量单元（IMU）和力觉触觉传感。视觉传感器包括RGB摄像头、双目视觉与深度摄像头，用于环境三维建模与目标识别；激光雷达传感器提供高精度空间几何信息，支持点云构建与障碍物检测；IMU用于实现姿态与运动状态感知功能，同时需要处理低频漂移与高频噪声；力觉与触觉传感覆盖了足底、关节与皮肤阵列，实现平衡控制、运动力反馈及人机交互感知，为机器人稳定运动与环境交互提供基础数据支撑。

2.1 视觉传感器

视觉传感器是人形机器人获取环境语义信息与空间几何信息的核心载体，通过捕捉光线信号并转换为数字图像，实现对物体类别、形状、位置、运动状态的识别与判断。根据功能差异，人形机器人常用的视觉传感器可分为RGB摄像头、双目视觉系统与深度摄像头（ToF/结构光）三类，分别适配不同的感知需求。

2.1.1 RGB摄像头

RGB摄像头是人形机器人最基础、最核心的视觉传感器之一，其主要功能是采集环境的二维彩色图像信息，为机器人提供环境感知和语义理解的视觉基础。RGB摄像头的核心组成包括光学镜头、图像传感器（通常为CMOS或CCD）、信号处理芯片以及接口电路。光学镜头负责将环境光聚焦到图像传感器上，传感器将光信号转换为电信号，经过模数转换与图像处理生成标准数字图像，输出到机器人上层计算单元进行分析与理解。

在工作原理上，RGB摄像头通过三个通道（红、绿、蓝）采集光强信息，实现对环境色彩的精确捕捉。CMOS传感器具有功耗低、响应速度快、易于集成等优势，而CCD传感器则在低噪声和光学质量上更有优势。在图像获取过程中，摄像头通常需要具备自动曝光（AE）、自动白平衡（AWB）、增益控制（Gain Control）和降噪处理等功能，以适应室内、室外及复杂光照环境。

RGB摄像头的关键性能指标包括分辨率、帧率、延迟、动态范围和低光性能。例如，人形机器人头部摄像头常用分辨率为1080P或更高，帧率可达到30~60fps以适应动态场景，图像延迟需控制在50ms以内以保证实时响应。高动态范围（HDR）和低光性能对复杂环境感知尤为重要，可在光线变化剧烈或弱光场景下保持图像清晰度与目标识别精度。

在人形机器人应用中，RGB摄像头主要承担以下任务：

环境视觉感知：通过图像捕捉机器人周围的环境信息，为SLAM（同步定位与地图构建）、路径规划提供二维语义和纹理信息。
目标检测与识别：利用计算机视觉与深度学习算法，对行人、物体、障碍物进行分类与定位，实现动态避障和交互操作。
人机交互：通过手势识别、面部表情分析、眼睛注视追踪等技术，使机器人能够感知用户意图并做出自然回应。
辅助深度感知：与双目或深度摄像头配合，提供颜色纹理信息，用于三维建模与物体表面特征提取。

尽管RGB摄像头在获取环境语义信息方面优势明显，但也存在局限性：单目摄像头无法直接获取深度信息，对光照条件高度敏感，在低光或强光环境下图像质量下降；运动模糊在高速动态场景中容易影响目标检测精度；同时，单独使用RGB图像难以判断物体的空间位置，需要与IMU、深度摄像头或激光雷达等传感器融合实现三维感知。

为弥补这些不足，人形机器人通常采用如下策略：

多模态感知融合：RGB摄像头提供高分辨率的纹理和颜色信息，双目或深度摄像头提供三维空间信息，IMU提供运动姿态数据，力/触觉传感器补充环境交互信息。通过数据融合算法，机器人能够在复杂动态环境下实现稳健的目标识别、路径规划和动作控制，从而提升自主感知与交互能力。
硬件选型：高端人形机器人通常采用全局快门（Global Shutter）CMOS传感器以减少运动模糊，支持HDR和宽动态范围图像采集，并通过高速接口（如USB3.0、MIPI CSI-2）与主控计算单元实现低延迟数据传输。低端或中端机型则可采用滚动快门（Rolling Shutter）摄像头，结合算法补偿动态扭曲。除此之外，摄像头的安装位置、视场角（FOV）、焦距和曝光参数的调节策略也会直接影响人形机器人在移动、抓取或导航过程中的感知能力。

综上所述，RGB摄像头作为人形机器人视觉感知的基础模块，承担着从环境观察到语义理解、从目标识别到交互反馈的多重任务。通过与其他传感器和算法的协同，RGB摄像头不仅提供二维视觉信息，还为三维建模、动态规划和自主控制提供关键数据支撑，是实现人形机器人自主感知、运动和智能交互的核心基础。

2.1.2 双目视觉

双目视觉是人形机器人实现三维空间感知的核心技术之一，其原理来源于人类双眼的视觉深度感知，通过两个相隔一定基线的摄像头同时采集环境图像，再利用视差计算实现深度估计与三维重建。双目视觉系统通常由左、右两个相同型号的摄像头组成，基线长度一般为5~15cm，既满足深度分辨率要求，又适应人形机器人头部空间受限的设计。

在工作过程中，双目视觉首先对左右图像进行预处理，包括畸变矫正、图像增强和特征提取，以保证后续匹配的精度。核心算法是立体匹配（Stereo Matching），通过寻找左右图像中特征点的对应关系计算视差，再根据相机内参和基线长度推算每个像素点的深度信息，从而形成稠密或稀疏的三维点云。双目视觉的深度精度通常可达到1~5 cm，测距范围0.5~10 m，适用于机器人日常环境的空间建模、障碍物检测、地形分析以及动态目标追踪。

双目视觉在机器人应用中的优势在于成本低、数据获取相对直观，并可直接结合现有图像处理与深度学习算法，实现物体识别与语义理解的双重功能。然而，其局限性也十分明显：

在低光照、逆光或光照不均匀场景下，匹配精度下降；
对纹理稀疏的平面（如白墙、光滑地板）深度计算不稳定；
对快速运动的物体存在一定模糊和视差误差。

因此，双目视觉系统通常需要与 RGB 摄像头、深度摄像头或激光雷达等传感器协同工作，通过多模态融合弥补单一传感器的不足。

在硬件设计上，双目摄像头常配合高帧率（≥30 fps）与低延迟（≤50 ms）采集模块，确保在机器人运动和动态场景中实现实时深度感知。同时，部分高端人形机器人会在头部顶部或躯干侧面增加辅助单目或全景摄像头，用于扩大视野、增强立体感知的可靠性。现代双目视觉系统不仅提供空间几何信息，还可通过深度学习算法实现场景语义分割、目标跟踪、动作预测等功能，为机器人路径规划、运动控制和交互决策提供关键数据支撑。

2.1.3 深度摄像头

深度摄像头是人形机器人实现近距离高精度三维感知的重要传感器类型，常用于手部操作、物体抓取、交互场景感知以及近场障碍物检测。相比双目视觉依赖视差计算，深度摄像头可直接输出每个像素点的深度信息，从而简化三维重建过程并提高测距精度。根据工作原理，深度摄像头主要分为两类：飞行时间（Time-of-Flight,ToF）与结构光（Structured Light）摄像头。

ToF摄像头通过发射调制光（如红外光）并测量光信号返回传感器的时间差或相位差来计算深度，整个过程实时完成，可直接获得稠密深度图。其优势在于测距速度快（典型帧率30~60 fps）、近中距离精度高（1~5 mm）、对动态场景适应性强，尤其适合手部抓取、近距离避障和快速交互场景。ToF摄像头的主要局限是对强光环境敏感，受阳光直射或高反射物体干扰时深度数据会出现噪声和空洞，需要结合图像后处理算法进行滤波和补全。

结构光摄像头通过投射已知光栅图案（如点阵或条纹）到目标表面，利用摄像头采集图案的变形信息计算深度。该方法在室内光照条件下具有高精度、高分辨率的优势，测距范围通常在0.2~5 m，适合精细抓取、手势识别和微小物体测量。结构光摄像头的缺点是对环境光敏感，尤其在户外强光下易出现测量误差，同时受限于投射图案的分辨率，深度精度会随距离增加而下降。

在机器人应用中，深度摄像头常与RGB摄像头融合，形成RGB-D 数据，既提供丰富的颜色信息，又获得精确的三维几何信息，为物体识别、姿态估计和场景重建提供多模态支持。此外，深度摄像头可通过软件算法实现点云滤波、表面重建、障碍物检测及动态物体追踪，为路径规划、操作控制和交互决策提供实时数据支撑。

现代人形机器人通常将ToF或结构光摄像头布置于头部、手臂末端或躯干前方，优化近距离感知能力。在硬件设计上，要求高帧率（≥30 fps）、低延迟（≤30 ms）、测距精度高，同时结合多传感器融合技术，弥补单一深度摄像头在强光、远距离或复杂纹理下的不足，确保机器人在动态与复杂环境中的感知稳定性和可靠性。