具身智能中的传感器技术36——RGB-D相机1

RGB-D相机是具身智能机器人的关键感知设备，其选型需重点关注深度精度、分辨率、填充率、最小盲区和帧率等核心指标。结构光适合精细操作，ToF适用于远距离导航，主动双目则在抗干扰性上表现突出。实际应用中需注意厂家标称数据与实际场景的差异，透明物体识别难题，以及多机干扰问题。不同技术路线各具优势，应根据具体应用场景选择合适的相机类型。

RGB-D 相机（深度相机）是具身智能机器人的核心感知器官。在选型时，不同技术路线（结构光、ToF、主动双目）的性能差异主要体现在以下几个硬核技术指标上。

这些指标直接决定了机器人是"火眼金睛"还是"近视眼"。

一、核心技术指标解析

1. 深度精度 (Depth Accuracy / Z-Accuracy)

定义： 测量的距离值与真实物理距离的误差。通常分为绝对误差 （如 ±1mm）和相对误差（如 1%）。
物理规律： 所有视觉方案的精度都会随距离增加而下降 （误差随距离平方增加 Z2Z2）。
- 结构光： 近距离极准，远了迅速变差。
- ToF： 相对稳定，随距离衰减较慢。
- 双目： 精度取决于基线长度（两个镜头间距），基线越宽，看得越远越准。

2. 深度图分辨率 (Depth Resolution)

定义： 深度图有多少像素点（如 1280x720）。
意义： 决定了机器人能看清多细小的物体。
- 高分辨率： 能看清手指缝、线缆。
- 低分辨率： 只能看清墙壁、桌子轮廓。

3. 填充率 (Fill Rate) / 完整性

定义： 深度图中有多少"黑洞"（无效像素）。
痛点：
- 高反光物体（金属）： 结构光和 ToF 的光会被镜面反射走，测不到。
- 黑色物体： 吸光，信号太弱测不到。
- 透明物体（玻璃）： 光穿过去了，测的是后面的墙。这是所有 RGB-D 相机的死穴。

4. 最小盲区 (Min Distance)

定义： 相机能看清的最近距离。
具身智能痛点： 机器人要把东西拿到眼前仔细看（如 10cm），大多数相机这时候是瞎的（结构光通常 >20cm，双目 >30cm）。

5. 帧率 (Frame Rate)

定义： 每秒输出多少张深度图。
意义： 决定了机器人能捕捉多快的动作。
- 30fps： 正常走路、抓取。
- 90fps+： 接球、快速避障（ToF 优势）。

二、三大技术路线指标横向对比

指标维度	结构光 (Structured Light)	ToF (Time of Flight)	主动双目 (Active Stereo)	具身智能应用建议
深度精度<br>(@1米)	极高<br>(< 1mm)	一般<br>(1cm 左右)	较高<br>(1-3mm)	精细操作选结构光。<br>比如穿针、插U盘。
工作距离<br>(Range)	近<br>(0.2m - 1.2m)	中远<br>(0.3m - 5m+)	中<br>(0.3m - 3m)	导航/避障选 ToF。<br>比如走路不撞墙。
抗强光干扰<br>(Outdoor)	差<br>(室外失效)	良<br>(取决于光功率)	优<br>(室内外通吃)	全场景通用选双目。<br>比如家庭服务机器人（阳台也能去）。
深度分辨率	高<br>(可达 1280x800)	低<br>(通常 VGA 640x480)	高<br>(取决于RGB传感器)	ToF 的边缘通常有锯齿，不适合三维重建。
功耗	中	高<br>(需高频发射脉冲)	高<br>(需大算力解算)	电池供电的机器人需考虑。
边缘质量<br>(Edge)	锐利	飞点/噪声<br>(Flying Pixels)	较好	ToF 在物体边缘容易测出错误的中间值。
典型产品	Intel RealSense D435<br>Orbbec Astra	Microsoft Azure Kinect<br>Sony IMX556	Intel RealSense D455<br>Stereolabs ZED 2

三、选型时的"潜规则"

别信 Datasheet 上的最高精度： 厂家标的通常是"白墙、垂直、1米处"的理想精度。在实际场景（黑桌子、斜着看、边缘），误差会放大 3-5 倍。
玻璃是天敌： 如果你的机器人要倒水（透明玻璃杯），单纯靠 RGB-D 相机大概率会倒在桌子上。必须结合 RGB 语义分割 （AI 猜那是杯子）或 超声波/毫米波雷达 辅助。
多机干扰 (Multi-camera Interference)： 如果两台机器人面对面，它们的投射光（结构光/ToF）会互相打架，导致深度图花掉。选型时要看是否有多机防干扰机制（如频分复用）。