自动驾驶相机坐标系转换

理解了坐标系转换，就理解了计算机视觉中经典的******"从三维世界到二维像素"******的完整数学推导过程。

这实际上是相机成像模型的核心，它将现实世界中的物体位置一步步转换成了我们在屏幕上看到的像素点。我们可以把这个过程看作一场"接力赛"，分为三个关键步骤。

这是第一棒。世界坐标系是客观存在的绝对坐标（比如放在桌子上的苹果），而相机坐标系是以相机镜头光心为原点的相对坐标（相机看到的苹果）。

物理含义：这就好比相机在问："这个物体在我的正前方多远？偏左还是偏右？"
核心参数 ：外参矩阵 $****** *********R********* ******∣****** *********T********* ******$ 。
- R （旋转矩阵）：描述相机本身的朝向（比如相机是平视还是仰视）。
- T （平移向量）：描述相机在世界中的位置（比如相机是放在桌上还是挂在天花板上）。
公式解读 ：上述公式展示了通过旋转 R 和平移 T ，将世界坐标 (Xw ,Yw ,Zw ) 变换为相机坐标 (Xc ,Yc ,Zc) 。这一步纯粹是三维空间内的刚体变换，不涉及成像。

这是第二棒，也是最神奇的一步------小孔成像。

物理含义：三维物体被投影到了二维平面上。这就好比光线穿过针孔，在背后的底片上留下了一个倒影。
核心参数 ：焦距 f 。
公式解读 ：公式xf =f ⋅(xc /zc ) 利用了相似三角形原理。
- 物体离相机越远（ zc 越大），成像就越小（ xf 越小）。
- 这一步将三维坐标 (Xc,Yc,Zc) 变成了二维物理坐标 (xf,yf) ，单位通常是毫米。

这是最后一棒，将物理单位转换为计算机能读懂的数字信号。

物理含义：图像传感器上的感光单元（像素）是有大小的。我们需要知道一个点在底片上的物理位置（毫米），对应的是第几行第几列的像素。
核心参数 ：内参矩阵 。
- dx , dy ：每个像素在x和y方向上的物理尺寸（即感光单元的大小）。
- u 0, v 0：主点偏移。理论上光轴中心应该对准图像正中心，但制造时总有误差，所以需要修正这个原点偏移。
公式解读 ：展示了如何将物理坐标 (xf ,yf ) 转换为像素坐标 (u ,v) 。这步操作把单位从"毫米"变成了"个"（像素个数）。

这张图最后的公式是一个"大招"，它试图建立像素坐标 (u ,v ) 和世界坐标 (Xw ,Yw ,Zw) 的直接联系。

像素坐标=内参矩阵×外参矩阵×世界坐标像素坐标=内参矩阵×外参矩阵×世界坐标

注意：公式中左侧是 Xw ,Yw ,Zw ，右侧是 u ,v ,1 ，中间矩阵包含了 Zc （深度信息）。这说明了一个核心痛点：仅凭一张二维图片（像素坐标），是无法直接完全还原三维世界坐标的，因为我们丢失了深度信息 Zc 。除非你知道物体的深度，或者使用双目相机/深度相机，否则这是一个"降维打击"，不可逆。

总结一下：

这一整套公式就是相机的******"翻译词典"******。

外参告诉我们要看哪里（位置和角度）。

焦距决定了视角的大小（透视关系）。

内参决定了图像怎么落在传感器上（像素映射）。

理解了这套转换，你就理解了所有三维重建、SLAM（即时定位与地图构建）和增强现实（AR）技术的数学基石。