【PonitNet++】2. 点云输入深度神经网络前的常见表示形式

点云(Point Cloud)是由三维空间中大量离散点组成的数据形式,其具有无序性、非结构化的特点,无法直接输入深度神经网络(DNN)进行处理,因此在输入网络前通常需要转换为结构化的表示形式。目前主流的转换形式主要有以下几种,每种形式对应适配不同的神经网络结构,以实现高效的特征学习与任务处理:

1. Voxelization(体素化)+ 3D CNN

体素化是将非结构化点云转换为结构化表示的核心方法之一,其核心逻辑是将三维空间划分为规则的立方体网格(即体素),并将点云中的离散点映射到对应体素中,通过平均池化、最大池化等方式聚合每个体素内的点特征,最终形成三维体素网格数据。这种结构化表示能够完美适配3D卷积神经网络(3D CNN),利用3D卷积操作捕获体素间的空间关联与三维几何特征,广泛应用于自动驾驶、三维重建等场景中的障碍物检测、语义占用预测等任务。体素化还能实现点云降噪、尺度统一,减少后续网络的计算冗余,但高分辨率体素化会带来内存消耗激增的问题,通常需结合稀疏卷积网络(如Spconv)优化处理效率。

在体素化+3D CNN的实际应用中,VoxNet是首个专门为点云体素表示设计的端到端深度神经网络架构,其核心价值在于高效利用体素化后的结构化数据,实现三维目标的快速分类与检测,以下是其详细架构解析:

VoxNet架构详解

VoxNet架构整体分为输入层、特征提取层、全连接层、输出层四大模块,适配32×32×32或64×64×64的体素网格输入,结构简洁且计算高效,专门针对点云体素数据的特性优化,解决了原始点云无序性带来的网络适配问题,其架构流程如下:

1. 输入层:体素网格预处理

输入层接收经过体素化处理后的三维体素网格数据,通常为固定尺寸(如32×32×32)的二进制体素网格(仅标记体素内是否存在点)或密度体素网格(记录体素内点的数量/密度)。为提升模型泛化能力,输入阶段会进行数据增强操作,包括体素网格的随机平移、旋转、缩放,以及随机翻转,避免模型过拟合,同时统一输入尺度,确保后续网络层处理的一致性。

2. 特征提取层:3D卷积+池化的核心组合

特征提取层是VoxNet的核心,通过两层3D卷积(Conv3D)与两层3D最大池化(MaxPool3D)交替组合,逐步提取体素网格的局部三维特征与全局空间关联特征,具体结构如下:

  • 第一层3D卷积(Conv3D 1):使用3×3×3的卷积核,输出通道数为32,步长为1,padding设为"same"(保证卷积后特征图尺寸不变),激活函数采用ReLU,用于提取体素网格的基础局部特征,捕捉相邻体素间的空间关系;

  • 第一层3D最大池化(MaxPool3D 1):使用2×2×2的池化核,步长为2,对卷积后的特征图进行下采样,保留关键特征的同时,将特征图尺寸缩小为原来的1/2(如32×32×32→16×16×16),减少后续计算量;

  • 第二层3D卷积(Conv3D 2):同样使用3×3×3的卷积核,输出通道数提升至64,步长为1,padding为"same",ReLU激活函数,进一步深化局部特征提取,融合更复杂的空间关联信息;

  • 第二层3D最大池化(MaxPool3D 2):2×2×2池化核,步长为2,再次下采样,特征图尺寸缩小至8×8×8,浓缩核心特征,过滤冗余信息。

该组合的核心优势的是,3D卷积能够直接捕捉三维体素的空间维度信息(x、y、z三个方向),相较于2D卷积投影后的特征提取,更能保留点云的原始三维几何结构,而最大池化则能增强特征的鲁棒性,避免微小的体素位置偏差影响模型判断。

3. 全连接层:特征映射与维度转换

经过特征提取层处理后,得到的是8×8×8×64的三维特征图(通道数64),需通过全连接层(FC)将其转换为固定维度的特征向量,适配后续分类/检测任务,具体分为两层:

  • 第一层全连接(FC 1):将8×8×8×64的特征图扁平化(reshape)为1维向量(维度为8×8×8×64=32768),输入全连接层后映射为128维的特征向量,激活函数仍采用ReLU,进一步压缩特征、融合全局信息;

  • 第二层全连接(FC 2):将128维特征向量映射为更低维度(如10维,对应10类目标)的输出向量,为后续输出层提供输入;同时,为防止过拟合,在FC 1与FC 2之间加入Dropout层, dropout概率设为0.5,随机丢弃部分神经元连接,提升模型泛化能力。

4. 输出层:任务适配输出

输出层根据具体任务需求设计,分为两种场景:

  • 三维目标分类任务:采用Softmax激活函数,输出每个类别的概率分布,例如识别体素化点云对应的目标是汽车、行人还是障碍物;

  • 三维目标检测任务:输出目标的类别概率、边界框坐标(x、y、z、长、宽、高)及旋转角度,实现对目标的定位与分类一体化。

VoxNet的核心创新的是,首次将体素化与3D CNN深度结合,构建了端到端的点云处理架构,摒弃了传统点云预处理中复杂的手工特征设计,让模型自动学习点云的三维特征,极大提升了点云分类/检测的效率与精度,为后续PointNet、SECOND等更复杂的点云网络奠定了基础。

2. Projection/Rendering(投影/渲染)+ 2D CNN

投影/渲染方法通过将三维点云降维映射到二维平面,转化为二维图像形式,从而适配技术成熟、计算高效的2D卷积神经网络(2D CNN)处理。常见的投影方式包括多视图投影、球投影、柱状体素投影(PointPillars)等:多视图投影从不同角度对3D点云"拍照",生成多张二维视图并输入2D CNN融合特征,适用于物体分类任务;球投影模拟激光雷达扫描方式,将点云展开为全景深度图,用于语义分割任务;柱状体素投影则将点云在高度方向压扁,生成"伪图像",兼顾效率与精度,非常适合车端实时部署。渲染方法则进一步通过神经渲染技术,将点云特征投影到分层体积中,学习点的可见性,避免投影过程中的重影、遮挡等 artifacts,提升二维表示的准确性。

3. Feature extraction(特征提取)

特征提取是点云预处理的关键环节,其核心是从原始点云或上述结构化表示中,自动学习并提取具有判别性的特征向量,为后续网络层提供有效输入。该过程可通过多层感知机(MLP)、邻域点聚合模块等实现:对于原始点云,可通过PointNet等点基方法,对每个点单独进行特征升维,再通过对称函数提取全局特征;对于体素化或投影后的表示,可通过卷积操作进一步提取局部与全局特征,弥补点云几何信息的损失。特征提取能够浓缩点云的关键信息,减少冗余数据,增强网络对三维形状、空间关系的理解能力,是连接点云原始数据与后续网络处理的核心桥梁。

4. Fully Connected(全连接层)适配表示

全连接层作为深度神经网络的经典结构,需要输入固定维度的特征向量,因此点云需转换为固定长度的特征表示才能适配全连接层处理。这种表示形式通常是特征提取后的结果:将点云通过上述特征提取方法,转化为维度固定的全局特征向量,输入全连接层进行分类、回归等任务的最终决策。在实际应用中,全连接层常与前三种表示形式结合使用,例如体素化+3D CNN、投影+2D CNN提取特征后,通过全连接层输出任务结果;也可通过全连接残差模块,减少特征传递过程中的信息损失,加速网络收敛,提升模型性能。

综上,点云输入深度神经网络前的各类表示形式,本质上是解决点云非结构化与网络结构化输入需求的适配问题,不同表示形式各有优劣,需根据具体任务场景、精度要求与计算资源,选择合适的预处理方式与对应网络结构。

相关推荐
沃达德软件2 小时前
巡防勤务可视化管理
大数据·人工智能·数据挖掘·数据分析
sww_10262 小时前
Spring-AI MCP 源码浅析
java·人工智能·spring
HyperAI超神经2 小时前
在线教程丨微软开源3D生成模型TRELLIS.2,3秒生成高分辨率的全纹理资产
人工智能·深度学习·机器学习·3d
永霖光电_UVLED2 小时前
连续波 UV-B 激光二极管问世,实现全球首次
大数据·人工智能·uv
有Li2 小时前
LoViT:用于手术阶段识别的长视频Transformer/文献速递-基于人工智能的医学影像技术
论文阅读·人工智能·深度学习·文献·医学生
油泼辣子多加2 小时前
【信创】华为昇腾NLP算法训练
人工智能·算法·机器学习·华为·自然语言处理
杨_晨2 小时前
大模型微调训练FAQ - Batch Size与参数配置
人工智能·机器学习·ai·语言模型·batch
测试_AI_一辰2 小时前
Agent & RAG 测试工程 02:RAG 从最小闭环到可信
开发语言·前端·人工智能·github·ai编程
查无此人byebye2 小时前
手写Multi-Head Attention多头注意力机制,Pytorch实现与原理详解
人工智能·pytorch·python·深度学习·transformer