
3.1 图像处理基础
图像处理是视觉感知系统的底层支撑,主要解决"如何获得可信、可计算的视觉数据"这一核心问题。本节从成像原理出发,介绍数字图像的表示方式与基本处理流程,重点围绕相机模型、成像几何以及标定与校正等关键技术展开,为后续的目标检测、分割与三维理解建立统一、精确的视觉坐标基础,是从像素走向高层语义的第一步。
3.1.1 相机模型与标定
相机模型用于描述三维世界中的点如何通过光学成像过程投影到二维图像平面,是计算机视觉中最基础、也是最核心的几何模型之一。准确的相机模型不仅决定了图像与真实世界之间的空间映射关系,还直接影响目标定位、三维重建、SLAM 与机器人视觉等任务的精度。
- 相机成像模型
在实际应用中,最常用的是针孔相机模型(Pinhole Camera Model)。该模型假设光线通过一个理想的小孔投影到成像平面,其核心思想是透视投影关系。三维空间点在世界坐标系下,经过一系列坐标变换,最终映射为图像中的二维像素点。
(1)成像过程
相机成像模型的成像过程通常经历以下坐标系转换:
世界坐标系→相机坐标系→成像平面坐标系→像素坐标系。
其中,世界坐标系描述物体在真实环境中的位置;相机坐标系以相机光心为原点;成像平面坐标系反映理想投影位置;像素坐标系则与图像分辨率和像素排列方式相关。
(2)针孔相机模型的数学表达(具象化数学模型)
在理想情况下,相机成像可抽象为针孔相机模型。三维空间点
P w =( X w , Y w , Z w ,1 )T 
在世界坐标系中,经由相机外参变换到相机坐标系:
P c = R t 0 1 P w 
其中:
-
- R∈ R3×3
:旋转矩阵; - t∈ R3×1
:平移向量;
- R∈ R3×3
随后,三维点通过透视投影映射到像素平面,其齐次坐标形式为:
s u v 1 =K R t X w Y w Z w1 
其中s
为尺度因子,uv
为像素坐标。
- 相机内参与外参
相机模型中的参数通常分为内参(Intrinsic Parameters)和外参(Extrinsic Parameters)两类。
(1)内参:描述相机自身的成像特性,包括焦距、主点位置以及像素尺度因子等,决定了三维点如何投影到图像平面。内参矩阵反映的是相机"怎么看世界"。
内参决定了相机如何看世界,在数学中通过内参矩阵描述相机自身的成像属性,其标准形式为:
K= f d x 0 u 0 0 f d y v 0 0 01 
其中:
- f
:相机焦距; - d x , dy
:像素在x/y方向上的物理尺寸; - u 0 v0
:主点坐标(光轴与像素平面的交点)。
(2)外参:描述相机在世界坐标系中的位置与姿态,通常由旋转矩阵和平移向量组成,用于刻画相机"站在世界的哪里、朝向哪里"。
- R
:相机姿态(朝向); - t
:相机位置。
外参决定了"相机站在世界的哪里、朝向哪里"。
总之,内参和外参共同构成完整的投影模型,使得三维空间点可以被精确映射到二维图像中。
- 相机标定的意义
在实际系统中,相机的内参与外参往往未知或存在偏差,因此需要通过相机标定(Camera Calibration)进行估计。相机标定的目标是利用已知几何结构的标定物(如棋盘格、圆点阵列),通过多幅图像反向求解相机参数,从而建立准确的成像模型。
高质量的标定结果是畸变矫正、三维测量、视觉定位等任务的前提,一旦标定不准,后续算法即使再复杂,也难以获得可靠结果。
- 面向人形机器人的外参动态性问题
在传统静态视觉系统中,相机外参通常被视为固定参数;而在人形机器人场景中,外参具有显著的动态性:
(1)头部转动与行走扰动:相机通常安装在机器人头部,随颈部关节转动;行走过程中还会受到振动与姿态变化影响。
(2)IMU融合更新外参:实际系统中,外参需结合IMU、关节编码器数据实时更新:
R cam world = R imu world ⋅ R camimu 
(3)对感知任务的影响:外参更新不及时会直接导致下面的问题:
-
地面高度估计偏差;
-
障碍物距离判断错误;
-
抓取目标空间定位失准。
-
标定基本流程
典型的相机标定流程包括:
(1)采集多角度、多位置的标定板图像;
(2)提取稳定、精确的特征点(如棋盘格角点);
(3)建立二维像素点与三维世界点之间的对应关系;
(4)通过优化方法求解相机内参和外参;
(5)评估重投影误差,验证标定精度。
这一过程本质上是一个非线性优化问题,目标是最小化理论投影点与实际观测点之间的误差。
- 工程实践中的注意事项
在真实应用中,相机标定应尽量覆盖相机视场的不同区域,避免只在局部区域采样;同时需要保证标定板的平整性与特征点检测精度。对于多相机系统,还需进行外参一致性标定,以保证各相机之间的空间关系准确可靠。
总之,通过建立精确的相机模型与标定结果,视觉系统才能实现从二维像素到三维空间、再到高层语义理解的可靠映射。
3.1.2 畸变矫正
在理想针孔相机模型中,空间直线在图像中仍应保持为直线,但在真实相机系统中,由于镜头结构、制造工艺及装配误差等因素,成像往往会产生不同程度的几何畸变。畸变若不加以处理,将直接破坏相机模型的准确性,使前一节建立的投影关系失效。因此,畸变矫正是相机标定之后、所有高层视觉算法之前必须完成的关键步骤,在人形机器人视觉系统中尤为重要。
- 畸变的类型与成因
实际工程中最常见的畸变主要包括以下两类。
(1)径向畸变(Radial Distortion)
径向畸变由镜头曲率引起,随着像素点到主点距离的增大而加剧,表现为图像"鼓起"或"内缩",常见形式包括:
- 桶形畸变:图像向外膨胀,广角镜头中较为常见;
- 枕形畸变:图像向内收缩,多见于长焦镜头。
(2)切向畸变(Tangential Distortion)
切向畸变主要由镜头与成像平面不完全平行、光轴偏移等装配误差造成,表现为图像局部拉伸或倾斜,常出现在低成本或长期使用的相机系统中。
- 畸变的数学模型(具象化表达)
在畸变建模中,通常先将像素坐标归一化到相机坐标系下:
x= X Z ,y= YZ 
令:
r 2 = x 2 + y2 
(1)径向畸变模型
径向畸变常用多项式模型表示:
x rad =x 1 k 1 r 2 k 2 r 4 k 3 r 6 y rad =y 1 k 1 r 2 k 2 r 4 k 3 r6 
其中,k 1 , k 2 , k3
为径向畸变系数。
(2)切向畸变模型
x tan =2 p 1 xy+ p 2 ( r 2 +2 x 2 ) y tan = p 1 ( r 2 +2 y 2 )+2 p 2xy 
其中,p 1 , p2
为切向畸变系数。
(3)完整畸变模型
x d = x rad + x tan y d = y rad + ytan 
该模型将理想点映射为畸变后的观测点。
- 畸变参数的获取方式
畸变参数通常在相机标定过程中与内参、外参同时求解。以张正友标定法为例,通过多幅棋盘格图像,利用非线性优化方法,使投影点与实际观测点的重投影误差最小,从而联合估计:
K R t k 1 k 2 k 3 p 1 p2 
在工程实践中,常用的畸变参数配置包括:
-
普通镜头:k 1 , k 2 , p 1 , p2
; -
广角或鱼眼镜头:增加k3
或采用专用鱼眼模型。 -
畸变矫正的基本流程
畸变矫正的核心思想是根据畸变模型,将畸变图像中的像素点反向映射到理想成像平面。其典型流程如下:
(1)使用标定结果获取内参矩阵与畸变系数;
(2)将像素坐标转换为归一化相机坐标;
(3)根据畸变模型进行反向映射计算;
(4)通过插值方法生成矫正后的图像。
在具体实现层面,通常采用查找表(LUT)或映射矩阵以满足实时性要求。
- 人形机器人场景下的畸变矫正要点
(1)对距离估计的影响:畸变未矫正会导致边缘区域目标位置明显偏移,使机器人在抓取或避障时出现距离误判。
(2)对多传感器融合的影响:在"视觉--IMU"或"视觉--激光雷达"融合中,畸变会破坏不同传感器之间的几何一致性。
(3)实时性与计算代价:人形机器人需在嵌入式算力平台上运行,通常在系统初始化阶段预计算畸变映射表,以降低在线计算开销。
(4)长期运行稳定性:镜头老化或结构微变可能引起畸变参数漂移,必要时需重新标定或在线微调。
-
工程实践建议
-
标定时应尽量覆盖图像边缘区域,以准确估计径向畸变;
-
对广角与鱼眼相机,优先采用专用畸变模型;
-
对关键任务(抓取、行走、操作),应在矫正后的图像坐标系中完成几何计算;
-
定期评估畸变矫正前后的重投影误差变化,作为系统健康度指标。
总之,畸变矫正是连接理想数学模型与真实成像系统的"校准桥梁"。只有在消除镜头畸变影响后,视觉系统才能保证几何一致性和空间精度,为人形机器人后续的目标检测、三维感知与动作执行提供可靠输入。