多传感器融合基础之一图像空间(Image Space)全面解析
从最直观的体验出发,当我们举起手机拍摄一张照片,或者通过显示器浏览一幅数字图像时,我们实际上在接触一种被精心规整过的视觉信息载体------图像空间 。这个空间将连续的光学世界切割成数以百万计的微小方块,每个方块记录一个独立的颜色值,最终拼合成我们所看到的画面。在计算机视觉与多传感器融合的宏大版图中,图像空间是诞生最早、研究最透、应用最广的测量空间,它以一种极度有序的方式编码了三维世界在某个视角下的二维投影。然而,这个看似简单的二维网格背后,隐藏着一整套几何、统计和计算上的深刻内涵。对图像空间的全面理解,不能止步于"像素矩阵 "这四个字,而应从其数学定义、数据结构、密度特性、成像几何、坐标变换体系、邻域拓扑、表征能力、遮挡规律、算法生态、存储计算开销,以及它与其他测量空间特别是点云空间的对比中,逐一解剖。
有关图像的其他内容,看我的CSDN博客:通过特征值和特征向量实现的图像压缩和特征提取_特征值与特征向量在图像压缩中的应用-CSDN博客
一、 数学定义与基本属性
在数学上,图像空间可以严格定义为一个二维标量或向量函数。这里
是离散的像素坐标,通常以图像左上角为原点,
向右增加代表列索引,
向下增加代表行索引。定义域
是一个矩形网格,其大小由图像的高度
和宽度
决定,即
,
。值域中的
表示通道数:灰度图
,彩色图常取
(RGB 或 BGR),而多光谱或高光谱图像可能拥有几十甚至上百个通道,此外还可以附加 alpha透明度通道、深度通道、红外通道等。这一函数定义的根基是离散性和规则性------每个像素不仅具有确切的位置索引,而且与其上下左右的相邻像素之间保持着恒定的单位距离,整个空间构成一个二维笛卡尔积网格 。

正是这种整齐划一的拓扑结构,使得图像空间与点云空间之间产生了第一道鸿沟:点云是无序点集,点与点之间没有天然的相邻关系,而图像像素之间的邻接关系是全局固定且可以预先计算的。
从维度角度看,图像空间的核心是二维的 ,即使我们把通道数考虑进去,形成一幅的三阶张量,空间维度仍然只有两个坐标轴。额外的通道维度并不提供额外的空间自由度,它是在每个空间位置上对不同物理属性(如红、绿、蓝强度)的独立采样 。因此可以将图像理解为"2D空间+多属性通道"的结构,这与三维点云空间 的
三维几何自由度有着本质区别。

点云即使附加了颜色、强度或法向量等属性,其空间位置信息本身就占据了三个独立维度,物体可以在这三个维度上自由分布;而图像空间自始至终只是二维平面的延展,丢失了沿光轴方向的深度维度,这种维度的缺失一方面造成了众所周知的尺度模糊问题,另一方面也使得图像天然更易于存储、显示和处理,因为它与我们最熟悉的二维纸张、屏幕等介质直接对应。当研究进入2.5D深度图或RGB-D图像时,实际上已经是对传统图像空间的一种维度拓展,只不过深度通道常常被看作是一张与彩色图对齐的附加图像,两者一起构成通向三维几何的桥梁。
二、 数据结构:规整的张量世界
在计算机内部,图像空间几乎总是被表示为多维数组或张量。一张的灰度图可能以二维float或uint8数组存储在内存中,而彩色图则通常采用三维数组。常见的布局有HWC(高度-宽度-通道) 和CHW(通道-高度-宽度) 两种。前者是图像读取库和显示软件的习惯,因为像素在内存中按行连续排列,每个像素的通道值在一起,方便随机访问;后者则是深度学习框架的主流,因为通道维度被提至第一维,使得卷积运算可以一次性在多个通道上进行向量化操作,同时batch维度N也自然地前置,形成NCHW四维张量。无论哪种布局,图像数据在内存中的物理存储都是极端规则的:给定起始地址和步长,就能精确计算出任一像素任一通道的偏移量,进而实现O(1)的随机访问。这种规则性带来了巨大的计算红利------GPU的纹理缓存、SIMD向量化指令、张量核心等硬件单元都为这种规整访存模式而深度优化,这也是图像处理速度能够达到实时甚至超实时的重要基础。

Image1.png是彩色图像


Image2.png是黑白图像


Image3.png是灰度图像

相比于图像空间这种几乎完美的数据组织,点云空间的数据结构则呈现出截然不同的面貌。点云是无序的 ,通常用一个N×3的浮点矩阵存储(x,y,z)坐标,如果需要属性还可以扩展为N×D。然而点的排列顺序可以任意置换而不改变几何形状,这一置换不变性 既是点云处理的难点,也是算法设计的核心约束。

为了能够快速检索空间邻域,点云必须辅以额外的索引结构,如KD树、八叉树、球树等,这些结构为每个查询操作带来了 O(log N)或与空间分布有关的开销,而图像中访问一个3×3邻域几乎只是几条偏移量指令。正因如此,图像空间中的卷积操作可以被定义为作用在规则网格上的平移等变线性算子,而点云上的卷积必须被重新设计为连续卷积、稀疏卷积或基于消息传递的图神经网络。这种从数据结构衍生出的算法差异,从根本上决定了两种空间的处理范式和运行效率。下图就是KD树结构。

三、 稠密性、稀疏性与信息的全采样
图像空间最突出的特点之一是它的稠密性。在正常的成像条件下,传感器每个像元都会产生一个输出值,无论该位置对应的场景是光滑的表面、杂乱的纹理、明亮的天空还是深黑的阴影,像素值总是存在的。即使某些像素由于死点(dead pixel)或者饱和而失效,从空间完整性的角度看,图像依旧是一个无空洞的完整采样网格。这种稠密性意味着图像能够以均匀的分辨率连续地捕获前景和背景的所有信息,不给任何区域留白。然而,稠密采样并不等价于信息没有损失。由于透视投影的压缩特性 ,远处的物体在图像上只占据很少的像素,而近处物体则占据大面积,这种空间分辨率在场景上的非均匀分布是图像空间固有的,但至少对图像网格本身而言,每个网格点都有一个明确的读数。
相反,点云空间通常是极度稀疏的。激光雷达或深度相机仅仅在物体表面上产生回波,自由空间和内部实体都是空的,点云中90%以上的空间体素可能是零占据。这赋予了图像空间在纹理信息表达上的巨大优势:图像可以记录墙壁上的每一道裂纹、树叶上的每一丝脉络、人脸上的每一个毛孔,只要分辨率足够高。点云若要达到同等纹理密度,需要的点数将呈平方级甚至立方级增长,且往往受限于传感器的角分辨率。但图像的稠密性也带来了冗余------天空中大片同质的蓝色像素对场景理解贡献甚微,却依然消耗等量的存储和计算资源。这种"所有区域同等重要"的假设在某些任务中并不高效,所以后续才出现了基于注意力机制的动态分配、稀疏卷积等尝试,但图像空间本身的基础属性仍是一个致密矩阵。
四、 采集方式:从光子到像素
图像的诞生离不开相机。最经典的成像模型是小孔成像 模型 ,它用一个极小的光圈将三维空间中的物体点投影到一个二维平面上。

在真实相机中,小孔被透镜组替代,以收集更多的光线,但同时引入了光学畸变。无论是单反相机、手机摄像头,还是车载相机、监控摄像头,其感光元件(CMOS 或 CCD)都是在平面上排列的像素阵列,每个像素通过微型透镜和彩色滤波阵列(如拜耳阵列)将入射光子转化为电荷,再经过模数转换和图像信号处理器(ISP)的流水线,最终输出一张具有鲜艳色彩和合适亮度的数字图像。这一过程内在地将真实世界通过中心投影压缩到了一个平面上,投影的数学形式可以写为:

其中是世界坐标 下的点,
是相机的外参矩阵,将世界点变换到相机坐标系,
是相机内参矩阵,包含焦距
和主点
,而
是深度尺度因子,恰好在该投影过程中丢失。这种透视投影造成了近大远小的视觉效果,也为图像赋予了强烈的空间暗示,但同时也剥夺了图像的绝对尺度:同样大小的物体,在图像上可以因为距离不同而呈现不同的大小,单张图像无法区分这是大而远的物体,还是小而近的物体。
除了常规的窄角、广角相机,鱼眼相机通过超大视场角的透镜设计,使得投影模型变为非线性更强的等距、等立体角或正交投影。全景相机则通过拼接多个图像或者使用折反射系统,将球面场景展开为等距柱状投影图像。无论是哪种相机,其输出的测量空间仍然是规则的二维栅格,只是每个像素所对应的入射光线方向与针孔模型不同。这种多样性丰富了图像空间的适用场景,也为图像之间的几何关系引入了更复杂的畸变模型。与之相对的,点云空间的采集传感器是主动式或被动式三维测量设备:脉冲激光雷达通过发射激光脉冲并测量飞行时间直接获得点的三维坐标;结构光相机和ToF相机利用编码光斑或相位差获取深度图,再反投影为点云;多视图立体匹配则通过不同视角的多张图像恢复稠密三维点。这些手段绕过了透视投影的压缩步骤,直接在三维空间中采样,因此点云天然携带真实的欧氏距离和尺度,不会出现图像中的"远近缩小"歧义。然而,这些三维传感器往往具有更低的空间分辨率、更高的成本,且受环境因素(如阳光干扰、表面材质)的限制,因此在实际的多传感器系统中,图像与点云更多是互补而非替代关系。
五、 坐标系统与变换之舞
图像空间内的坐标系统并非只有像素坐标一种。为了分离传感器物理尺寸与像素离散化的影响,我们通常定义图像平面坐标系:以相机主点为中心,坐标轴平行于像素行和列,但以物理长度(如毫米)为单位。像素坐标与图像平面坐标
之间通过像素尺寸
相关联,加上主点偏移:

在此基础上,相机坐标系下的三维点经过归一化------即除以
------落到归一化图像平面
,然后再由内参矩阵映射到像素。这条清晰的坐标链:世界坐标系 → 相机坐标系 → 归一化平面 → 像素坐标系,构成了图像空间与三维世界之间映射的桥梁。

(1)世界坐标系(World Coordinate System)
是描述场景中物体位置的全局参考系,原点和轴方向可根据实际场景设定,比如以相机初始位置为原点,X轴指向右、Y轴指向下、Z轴指向拍摄方向。物体的三维坐标********是其在真实世界中的绝对位置。
(2)相机坐标系(Camera Coordinate System)
以相机光心为原点,Z轴为相机光轴方向(指向拍摄场景),X轴、Y轴分别对应图像平面的水平、垂直方向。世界坐标系中的点通过刚体变换(旋转+平移)转换到相机坐标系,公式为:

其中R是3x3旋转矩阵,T是3x1平移向量,代表相机在世界坐标系中的位姿。
(3)归一化平面(Normalized Image Plane)
是相机坐标系中与图像平面平行的虚拟平面,通常设,将相机坐标系的点投影到该平面,得到
的归一化坐标。这一步消除了相机内参中的焦距影响,是连接相机坐标系和像素坐标系的中间环节。
(4)像素坐标系(Pixel Coordinate System)
以图像左上角为原点,X轴指向右、Y轴指向下的二维坐标系,单位为像素。归一化平面的点通过相机内参矩阵转换为像素坐标,公式为:

其中、
是相机焦距(像素单位),
、
是图像主点坐标(通常为图像中心)。

在图像空间内部,也存在着多种二维变换。欧氏变换(旋转+平移)保持了长度和角度,但只能表达平面刚体运动;相似变换加入了均匀缩放,多用于图像缩放与裁剪;仿射变换进一步允许非均匀缩放和剪切,能够很好地近似小范围透视变化,并保持平行线不变;最一般的是单应变换(透视变换),一个 3×3可逆矩阵作用在齐次坐标上,能够准确描述一个平面场景在不同视角下的投影映射,或者同一相机旋转时拍摄的两张图像之间的关系。这些变换在图像拼接、立体校正、增强现实等领域扮演核心角色。它们之所以能被简洁地定义和应用,正是因为图像空间规则网格的几何属性------每一个像素的新位置都可以通过连续的数学映射来计算,再通过双线性、双三次等插值方法在离散网格上重新采样。
而当我们把目光投向点云空间时,变换则是另一番景象:三维点主要经历刚体变换(旋转和平移),甚至在非刚性配准中采用变形场。这些变换直接作用于点坐标,不会发生透视压缩,因此尺度和角度都被完整保留。但点云缺少图像那种自然的插值机制------在离散网格上插值可以直接利用相邻像素,而点云的连续化通常需要借助曲面重建或隐式神经表示。然而,两者之间的坐标映射也异常紧密:已知相机内外参,就可以将点云投影到图像空间,得到每个三维点在图像上的像素坐标,这为点云着色、点云与图像特征关联、以及利用2D检测结果先验辅助3D检测提供了可能。反过来,若要将图像"提升"到三维空间,则必须解决深度缺失这个根本性障碍,依赖单目深度估计、双目视差或者如Lift-Splat-Shoot这类将图像特征沿射线方向分配至三维体素的复杂操作。这种坐标体系的有往无来,恰恰体现了图像空间维度坍缩所带来的核心挑战。
六、 邻域拓扑:卷积运算的自然摇篮
图像空间的一个巨大恩赐是其自带的固定邻域结构。对于任何一个内部像素,它的四邻域为上、下、左、右四个像素,八邻域再额外加上四个对角像素。

这种邻域关系平移不变,无论位于图像的哪个位置,相对邻域坐标差集都是一样的。正是因为这种规则拓扑,卷积神经网络可以定义由一组可学习权重构成的卷积核,在整幅图像上滑动,对每个局部窗口执行乘加操作。这样的操作不仅是计算上极其高效的------可以通过im2col、Winograd算法、FFT等多种手段加速,而且在数学上天然满足平移等变性,即输入图像发生平移,输出的特征图也发生相同的平移。这一性质对于捕捉物体的局部特征至关重要,因为无论一个猫位于图像左侧还是右侧,卷积核都会产生相同的激活模式,只不过位置不同。

在这种规则的邻域基础上,池化层能够方便地降低分辨率并扩大感受野,空洞卷积可以以指数方式扩大感受野而不增加参数量,特征金字塔则将不同层级的语义特征对齐到同一空间尺度。所有这些都是因为图像网格的刚性结构允许我们事先知道每一个操作所对应的输入像素索引。相比之下,点云空间没有固定的网格,其邻域完全依赖动态查询:基于半径的球查询或者K近邻搜索。这导致了PointNet++等网络中必须在每一层重新构建局部邻域,带来了额外计算负担,并且无法像图像卷积那样直接利用高度优化的矩阵乘加。虽然近年来三维稀疏卷积、体素卷积以及Transformer在点云处理上取得了长足进步,但它们都不得不额外构建体素网格或者邻域图来人为引入规则性,这从反面印证了图像空间在拓扑结构上的巨大优势。

七、 外观、纹理与几何盲区
当我们谈论表征能力时,图像空间毫无疑问是外观信息的高保真载体。每个像素可以记录8比特甚至10比特、12比特的精细色彩强度,三通道能够复现数百万种颜色,高分辨率传感器可以分辨极细微的纹理变化。这使得图像非常擅长处理那些依赖外观的视觉任务,比如材质分类、文字识别、人脸验证、医学皮肤病变分析等。在这些任务中,颜色、对比度、纹理基元的统计规律构成了主要线索,而三维几何结构只是次要信息或者完全不需要。此外,图像作为可视信息的主要载体,天然与人眼的感知方式匹配,便于可视化和人工标注,这极大促进了大规模数据集的构建,例如ImageNet、COCO、Cityscapes,它们的出现又反过来推动了深度学习在图像领域的爆炸式发展。
然而,图像空间的这种外观禀赋是以牺牲几何信息为代价的。图像中没有任何一个像素直接告诉我们该处的真实物理尺寸或距离。一根柱子在图像上可能只是几个像素宽的竖条,它到底是一根近处的细杆,还是一根远处的粗柱,单张图像无法分辨。想要从图像中恢复几何,必须借助多视图几何、运动恢复结构或深度学习的隐式线索(如消失点、相对大小、纹理梯度)。即便如此,恢复出的深度图仍往往存在尺度模糊 、边缘模糊 和对无纹理区域 的困惑。相较之下,点云空间每一个点都直接给出了三维坐标,因此进行物体尺寸测量、三维重建、SLAM等几何密集型任务时,点云具有原生优势。但同时,点云在物体表面若有彩色信息,也需要靠相机对齐后映射上去,且分辨率受限于点云本身的密度,无法媲美图像的纹理细致程度。可见,两种测量空间在表征力上呈现强烈的互补性:图像是"看外观的专家",点云是"测形状的尺子"。
八、 遮挡与视点依赖
图像空间的一个根本局限 性来自于其投影本质:每一张图像只能捕获场景的可见表面。遮挡物背后的一切都完全消失在视野之中。这既是人类视觉习以为常的现象,也是计算机视觉必须面对的难题。例如,在自动驾驶场景中,一辆大卡车可能完全遮蔽其后方的行人;在室内场景中,桌子下方区域对单张图像而言是盲区。尽管人类可以通过经验和上下文推断部分遮挡物体的存在,但对算法来说,单视角图像所能提供的信息受限于视锥体的截面,这直接催生了对多相机系统、多帧时序融合以及多视角立体视觉的需求。鱼眼相机虽然能扩大视场角,但依然无法穿透物体,而且图像边缘的投影畸变会挤压信息量。
有趣的是,点云空间同样会受到自遮挡的影响------激光雷达无法穿透物体,因此单一扫描也仅获取物体朝向传感器一侧的表面,背面几何缺失。但是,点云可以通过变换视角或多传感器配置来获得更完整的几何,因为点云是三维的,我们可以旋转点云从任意角度观察它,甚至对缺失的背面进行补全推理。而在图像空间中,旋转观察者并不改变图像内容,除非重新拍摄。多视角图像虽然也能恢复部分遮挡信息,但那属于跨越多个图像空间的计算,而非单个图像空间固有的能力。从这个意义上说,单帧图像是最脆弱的空间表征之一,其视角依赖性非常强,而点云的视角依赖性体现在采集时,数据本身却允许多角度自由审视。融合系统中,常常利用图像的丰富外观去识别被点云稀疏漏掉的小物体,同时利用点云的三维形状推断出图像中被遮挡物体的存在与轮廓,二者协同才能克服各自的遮挡短板。
九、 算法生态:从滤波器到 Transformer
得益于图像空间规则的张量结构与邻域拓扑,围绕图像的处理算法已经发展出一座庞大而成熟的技术大厦。从早期的Sobel、Canny边缘检测,到SIFT、HOG手工特征,再到以 AlexNet为起点的卷积神经网络革命,图像算法始终在追求更高效的局部特征提取和全局上下文整合。卷积层、批归一化、ReLU激活、残差连接、密集连接等标准构件可以自由组合出VGG、ResNet、DenseNet、EfficientNet等骨架,而这些骨架在分类、分割、检测、姿态估计、超分辨率等任务上不断刷新记录。图像上的2D卷积具有高度的数据复用性和计算并行度,能够很好地映射到GPU的SIMT架构和张量核心上。NVIDIA的cuDNN库、Intel的MKL-DNN以及各个推理框架(TensorRT, OpenVINO)对卷积算子进行了极致的优化,包括winograd变换、内存融合、算子融合等,使得在嵌入式设备上实时运行复杂图像网络成为可能。
近年来,Vision Transformer (ViT) 及其变种将图像划分为固定大小的patch,将这些patch线性嵌入为tokens,然后送入一系列多头自注意力和前馈网络层。这种方法打破了卷积的局部归纳偏置,获得了更大的感受野和更强的全局建模能力,在一些大数据集上甚至超越了传统CNN。但即便如此,ViT仍然强依赖于图像空间的规则网格,因为patch的划分和位置编码都是基于网格的。Swin Transformer则通过移动窗口机制重新引入了局部性,也在网格上定义了层次化特征。所以从根本上看,无论模型怎么演变,图像空间的规则性和有序性一直在为高效算法提供舞台。点云领域虽然也有PointNet、PointNet++、稀疏卷积、PCT等里程碑,但因数据结构不规则,算子优化难度大,推理速度往往慢于同级别的图像模型,这在多传感器实时融合系统中是必须权衡的因素。
十、 存储与计算开销
图像存储的大小直接由分辨率、通道数和位深度决定。一张1920×1080的彩色图像,若以8位无符号整数存储,未压缩时占用约6.2 MB。如前面的image1.png图像。

实际上,图像往往以有损压缩格式(如 JPEG)存储,利用离散余弦变换(DCT)将空间域转换到频域,并对高频系数进行量化和熵编码,能够在保持良好视觉质量的同时将文件大小压缩至数百KB。PNG则使用无损的 DEFLATE压缩加上预测滤波,适合文字、图形等需要精确像素的场景。这些压缩技术的高效性,本质上是利用了图像空间内在的统计冗余------相邻像素高度相关,色彩分布非均匀。而点云的压缩则要困难得多,因为点的排列无序,必须同时编码几何和属性,MPEG G-PCC和V-PCC等标准采用八叉树、几何预测、属性变换等手段,压缩比和复杂度通常不如图像压缩成熟。这使得图像在传输、存储和标注上都占尽成本优势,也是图像数据集规模远超点云数据集的原因之一。
在计算上,处理图像所需的浮点运算数与像素数量呈线性或近线性关系。例如 ResNet-50处理224×224输入约需40亿次浮点运算(4 GFLOPs),这在现代GPU上仅需几毫秒。而对于点云,由于体素化或邻域查询等开销,处理几万个点可能需要更多运算。因此,在需要实时性保障的自动驾驶、机器人系统中,图像处理流水线可以运行得非常轻量,而点云分支往往需要专用硬件加速(如激光雷达感知芯片)或进行大量降采样。
十一、 融合中的图像角色:投影与提升的支点
在多传感器融合框架下,图像空间扮演着不可替代的角色。一个最典型的模式是将激光雷达点云通过内外参投影到图像平面,从而获得每一个三维点对应的颜色值,实现点云着色;同时,也可以利用图像中检测到的2D边界框去截取对应的点云视锥,大大缩小3D目标搜索范围。另一类被称为"提升"的操作则是反其道而行之:将图像特征沿视线方向分配到3D网格中。著名的Lift-Splat-Shoot方法 先为每个像素估计一个离散深度分布,然后将图像特征"提升"成伪点云或视锥特征,再"拍平"到鸟瞰视图(BEV)网格上。这类方法使得纯视觉系统也能构建具有几何一致性的3D表示,大大缩小了与激光雷达方案的差距。然而,这种提升本质上是一个病态逆问题,高度依赖深度估计网络的精度和泛化性,在复杂天气、异常视角下容易失效,而激光雷达提供的原生精确几何可以在融合时对视觉提升结果进行校验和增强。
图像还为多模态融合提供了强大的语义先验。在BEV空间中进行目标检测时,常常将由图像主干网络提取的多尺度特征通过交叉注意力注入点云 BEV 特征中,从而让模型既拥有点云的准确位置和形状,又拥有图像的色彩和纹理判别力。在这个过程中,图像空间作为高分辨率外观信息的源头,其规则网格特性使得特征提取可以非常深且细粒度,而点云空间则负责将这一外观安放到正确的三维位置上。脱离了图像空间,纯激光雷达方案在远距离小目标、交通标志、红绿灯识别等任务上会变得异常困难;而脱离了点云,纯视觉方案在夜间、逆光、测距精度上会暴露出明显短板。因此,当代先进的多传感器融合系统几乎无例外地将图像空间视为一个核心的测量空间,并围绕它设计复杂的变换与融合管线。
十二、 应用谱系与擅长之处
回顾计算机视觉的发展历史,几乎所有重大突破都首先在图像空间取得。图像分类、目标检测、语义分割、实例分割、全景分割、关键点检测、人脸识别、图像描述、图像生成......这个长长的列表足以证明图像空间的通用性。它不仅能处理自然场景,也能处理医学影像、遥感影像、工业检测影像、文档扫描件等。由于图像采集成本低、设备普及,大规模人工标注得以实施,这又进一步推动了监督学习范式的繁荣。在自动驾驶中,图像被用于交通灯识别、车道线检测、可行驶区域分割、交通标志识别、车辆行人检测等,几乎涵盖了与"是什么"有关的所有语义任务。
但在需要"在哪里""有多大""距离多少"等精确几何回答的任务中,图像往往力不从心。单目3D检测尽管进步巨大,但误差通常仍远大于激光雷达方案。图像在SLAM中虽然可以通过ORB-SLAM等稀疏方法实现定位与建图,但尺度漂移和纯旋转失效问题始终存在。正是这些局限促生了测量空间的分工:图像空间专攻外观与语义,点云空间专攻几何与尺度,两者各取所长。
十三、 与点云空间的系统对比
现在我们可以系统地将图像空间与点云空间并置对比。从维度看,图像是2D投影,点云是3D原始几何;从数据结构看,图像是规则张量,点云是无序点集;从密度看,图像稠密但投影导致空间分辨率不匀,点云稀疏但均匀覆盖空间;从变换看,图像内进行的是二维单应或仿射变换,点云内是三维刚体变换;从邻域看,图像有固定网格,点云需要查询;从表征看,图像保存纹理细节但缺失尺度,点云直接提供三维形状;从采集看,图像是被动或主动可见光成像,点云是主动测距;从算法成熟度看,图像生态极为丰富且高效,点云处理仍存在较大优化空间;从融合角色看,图像是语义和外观的提供者,点云是几何骨架的提供者。这样的对比并不旨在分出高下,而是揭示两者在信息空间中的正交性------它们所缺失的,恰恰是对方所擅长的。
十四、 图像空间与体素、占用网格、NeRF 等表示的关系
在三维感知的语境中,图像空间虽然自身是二维的,但它可以作为构建其他测量空间的起点。占用栅格地图将空间划分为立方体,每个体素存储占据、空闲或未知状态。这种体素表示可以看作图像网格在三维的延伸,同样规整且可以卷积。但体素地图稀疏性极强,大多数体素为空,因此通常采用八叉树或哈希表存储。而构建体素地图的重要输入之一就是图像:通过视觉SLAM或深度估计,将多帧图像的深度信息融合进体素。此时,图像空间的稠密纹理和规则结构被提升为三维占据信息,完成了维度的跳跃。
最近大放异彩的神经辐射场(NeRF) 则提供了一种连续的场景表示:用多层感知器将 5D坐标(空间位置+视角方向)映射为颜色和密度,通过体积渲染与输入图像进行监督。在这种范式下,图像空间从唯一的真实数据变成了训练监督信号,场景本身被编码为一个连续的神经场,可以以任意分辨率渲染出新视角的图像。NeRF的出现挑战了图像空间离散采样的传统观念,指出我们完全可以用连续函数来替代离散像素网格,从而突破分辨率的物理限制。然而即便如此,NeRF的训练和评估依然离不开图像空间------输入是图像,输出是渲染到图像平面的像素值,损失函数在图像空间计算。体素、网格、点云也都可以从训练好的NeRF中提取出来,作为另一种表示形式。所以,图像空间不仅是二维视觉的主场,也是通往各种三维连续或离散表示的出发点与落脚点。
十五、 局限与未来方向
纵使图像空间成绩斐然,它的局限性也日趋明显。对光照、天气、季节变化的敏感性使得基于图像的系统在恶劣条件下性能急剧下降;透视投影导致的远距离小目标与遮挡边界问题难以根除;二维空间的输出(如2D检测框)无法直接用于需要精确3D位置的下游规划任务;而纯视觉的深度估计虽然进步显著,但在安全关键应用中仍然风险较高。因此,未来的方向并非用图像空间取代其他空间,而是建立更智能、更紧致的多空间融合架构。例如,利用Transformer的多头注意力直接在图像特征与点云特征之间交互,不需要显式投影,允许网络自学习对齐关系;或者将图像空间、点云空间和BEV空间视为token化的多模态序列,统一由大模型处理。图像空间会继续以其高分辨率纹理和规则性提供精细的外观线索,而其他测量空间则赋予这些线索以三维骨架和动态特性,最终实现面向开放世界的鲁棒感知。
结语:图像空间是视觉感知的基石。它用数百万个有序排列的像素,以二维投影的方式尽力捕捉光影世界的丰富纹理和语义。虽然它丢弃了深度,却换来了规则网格带来的极高计算效率和算法成熟度;虽然它受限于单视角,却通过多视图几何和深度学习不断突破边界。在与点云空间、雷达极坐标空间、体素空间等其他测量空间的交响之中,图像空间始终奏响着负责"看明白是什么"的主旋律。理解图像空间的每一个细节------从数学定义到坐标变换,从密度特性到算法生态------是掌握多传感器融合的第一步,也是打开更高级空间感知之门的那把钥匙。