自动驾驶视觉相关的坐标系

自动驾驶视觉感知中，坐标系的转换是理解图像如何从三维世界映射到二维平面的关键。主要涉及以下四个核心坐标系

这是图像最原始的离散表示形式。

这是一个连续的物理坐标系，用于连接像素与真实世界。

这是以相机自身为参照的三维坐标系。

这是描述整个自动驾驶场景的全局坐标系。

这些坐标系之间的转换关系如下：

像素坐标系 → 图像坐标系 ：通过缩放和平移完成。这一步将离散的像素点转换为连续的物理坐标。

图像坐标系 → 相机坐标系 ：通过透视投影完成。这一步利用小孔成像原理，将三维空间中的点投影到二维成像平面上。

相机坐标系 → 世界坐标系 ：通过旋转和平移完成。这一步将相机视角下的坐标转换到全局的世界坐标系中，实现多传感器数据的统一。

理解这些坐标系及其转换，是进行自动驾驶中目标检测、定位和路径规划等任务的基础。

这里图中展示了两个关键的平面，这是理解透视投影的核心：

实际像平面：图中 Op 所在的平面。根据文中描述，这是光心后方的底片，形成的是倒立的实像。
虚拟像平面（成像平面）：图中 O1 所在的平面（位于光心前方）。为了数学计算方便，我们在光心前方距离 f（焦距）处设立的一个虚拟平面。在这个平面上，成像是正立的，且大小与倒像相同。

尺度变换 ：将图像坐标系的物理单位（毫米）转换为像素单位。例如， x 方向的像素坐标 u =ximage /sx 。

原点平移 ：图像坐标系原点在中心 O 1 ，而像素坐标系原点在左上角。需要加上偏移量 (cx ,cy) 。

关系：

相机坐标系的原点 Oc 到图像坐标系原点 O1 的距离即为焦距 f。空间点 P 通过光心 Oc 投影到图像平面上的点 P'，遵循相似三角形原理：图像坐标 = (焦距 / 深度) * 相机坐标。