（3-1-01）视觉感知：从像素到语义：图像处理基础

3.1 图像处理基础

图像处理是视觉感知系统的底层支撑，主要解决"如何获得可信、可计算的视觉数据"这一核心问题。本节从成像原理出发，介绍数字图像的表示方式与基本处理流程，重点围绕相机模型、成像几何以及标定与校正等关键技术展开，为后续的目标检测、分割与三维理解建立统一、精确的视觉坐标基础，是从像素走向高层语义的第一步。

3.1.1 相机模型与标定

相机模型用于描述三维世界中的点如何通过光学成像过程投影到二维图像平面，是计算机视觉中最基础、也是最核心的几何模型之一。准确的相机模型不仅决定了图像与真实世界之间的空间映射关系，还直接影响目标定位、三维重建、SLAM 与机器人视觉等任务的精度。

相机成像模型

在实际应用中，最常用的是针孔相机模型（Pinhole Camera Model）。该模型假设光线通过一个理想的小孔投影到成像平面，其核心思想是透视投影关系。三维空间点在世界坐标系下，经过一系列坐标变换，最终映射为图像中的二维像素点。

（1）成像过程

相机成像模型的成像过程通常经历以下坐标系转换：

世界坐标系→相机坐标系→成像平面坐标系→像素坐标系。

其中，世界坐标系描述物体在真实环境中的位置；相机坐标系以相机光心为原点；成像平面坐标系反映理想投影位置；像素坐标系则与图像分辨率和像素排列方式相关。

（2）针孔相机模型的数学表达（具象化数学模型）

在理想情况下，相机成像可抽象为针孔相机模型。三维空间点

P w =( X w , Y w , Z w ,1 )T

在世界坐标系中，经由相机外参变换到相机坐标系：

P c = R t 0 1 P w

其中：

1. R∈ R3×3 ：旋转矩阵；
2. t∈ R3×1 ：平移向量；

随后，三维点通过透视投影映射到像素平面，其齐次坐标形式为：

s u v 1 =K R t X w Y w Z w1

其中s 为尺度因子，uv 为像素坐标。

相机内参与外参

相机模型中的参数通常分为内参（Intrinsic Parameters）和外参（Extrinsic Parameters）两类。

（1）内参：描述相机自身的成像特性，包括焦距、主点位置以及像素尺度因子等，决定了三维点如何投影到图像平面。内参矩阵反映的是相机"怎么看世界"。

内参决定了相机如何看世界，在数学中通过内参矩阵描述相机自身的成像属性，其标准形式为：

K= f d x 0 u 0 0 f d y v 0 0 01

其中：

f ：相机焦距；
d x , dy ：像素在x/y方向上的物理尺寸；
u 0 v0 ：主点坐标（光轴与像素平面的交点）。

（2）外参：描述相机在世界坐标系中的位置与姿态，通常由旋转矩阵和平移向量组成，用于刻画相机"站在世界的哪里、朝向哪里"。

R ：相机姿态（朝向）；
t ：相机位置。

外参决定了"相机站在世界的哪里、朝向哪里"。

总之，内参和外参共同构成完整的投影模型，使得三维空间点可以被精确映射到二维图像中。

相机标定的意义

在实际系统中，相机的内参与外参往往未知或存在偏差，因此需要通过相机标定（Camera Calibration）进行估计。相机标定的目标是利用已知几何结构的标定物（如棋盘格、圆点阵列），通过多幅图像反向求解相机参数，从而建立准确的成像模型。

高质量的标定结果是畸变矫正、三维测量、视觉定位等任务的前提，一旦标定不准，后续算法即使再复杂，也难以获得可靠结果。

面向人形机器人的外参动态性问题

在传统静态视觉系统中，相机外参通常被视为固定参数；而在人形机器人场景中，外参具有显著的动态性：

（1）头部转动与行走扰动：相机通常安装在机器人头部，随颈部关节转动；行走过程中还会受到振动与姿态变化影响。

（2）IMU融合更新外参：实际系统中，外参需结合IMU、关节编码器数据实时更新：

R cam world = R imu world ⋅ R camimu

（3）对感知任务的影响：外参更新不及时会直接导致下面的问题：

地面高度估计偏差；
障碍物距离判断错误；
抓取目标空间定位失准。
标定基本流程

典型的相机标定流程包括：

（1）采集多角度、多位置的标定板图像；

（2）提取稳定、精确的特征点（如棋盘格角点）；

（3）建立二维像素点与三维世界点之间的对应关系；

（4）通过优化方法求解相机内参和外参；

（5）评估重投影误差，验证标定精度。

这一过程本质上是一个非线性优化问题，目标是最小化理论投影点与实际观测点之间的误差。

工程实践中的注意事项

在真实应用中，相机标定应尽量覆盖相机视场的不同区域，避免只在局部区域采样；同时需要保证标定板的平整性与特征点检测精度。对于多相机系统，还需进行外参一致性标定，以保证各相机之间的空间关系准确可靠。

总之，通过建立精确的相机模型与标定结果，视觉系统才能实现从二维像素到三维空间、再到高层语义理解的可靠映射。

3.1.2 畸变矫正

在理想针孔相机模型中，空间直线在图像中仍应保持为直线，但在真实相机系统中，由于镜头结构、制造工艺及装配误差等因素，成像往往会产生不同程度的几何畸变。畸变若不加以处理，将直接破坏相机模型的准确性，使前一节建立的投影关系失效。因此，畸变矫正是相机标定之后、所有高层视觉算法之前必须完成的关键步骤，在人形机器人视觉系统中尤为重要。