文件路径models/view_transformers
父类 是class BiLinearSample(nn.Module)
基于https://github.com/aharley/simple_bev。
函数解析
- 函数
bev_coord_to_feature_coord
的功能
将鸟瞰图3D坐标 通过多相机(针孔/鱼眼)内外参投影 到图像 特征平面,生成归一化采样坐标与有效掩码,实现多视角特征的空间对齐与融合筛选。
代码
py
def bev_coord_to_feature_coord(self, features, block_idxs, extrin_camera_to_ego, intrinsic, dist, ida, dist_type='KB'):
...
首先:函数接收多个参数,包括特征、块索引、外参、内参、畸变参数等。
然后:处理不同相机类型(针孔和鱼眼)的索引
然后:生成3D点(通过gridcloud3d()
函数实现,非均匀空间采样),将记忆坐标系中的点转换到自我车辆坐标系(get_bevgrid()
和matrix_mem_egocar
)。并通过外参矩阵转换到相机坐标系。对于针孔相机,计算投影点,并进行畸变校正,然后将坐标转换到特征图的比例。对于鱼眼相机,处理类似,但使用了不同的畸变模型。
最后:合并两种相机的结果,并根据块索引屏蔽某些相机的特征。
这里面核心的是"对于针孔/鱼眼相机,计算投影点"。
首先,生成相机索引
py
pinhole_index = torch.cat([torch.arange(num_cams_pinhole) + self.num_cams * i for i in range(B)])
fisheye_index = torch.cat([torch.arange(num_cams_pinhole, num_cams_pinhole
+ num_cams_fisheye) + self.num_cams * i for i in range(B)])
操作演示,num_cams_pinhole有1个,num_cams_fisheye有4个,num_cams 是5个。
然后用pinhole_index 和fisheye_index 索引取get_bevgrid()
生成的3D点。
然后用内外参数将3D点转换到图像2D点
py
# 投影3D点到2D图谱 (原始图像尺寸是 2160x3840)
外参逆矩阵 = 外参矩阵.inverse()
2D图像的点 = (内参矩阵 @ 外参逆矩阵)@ 3D点 # 尺寸是(BN,4,K)
2D图像的点 = 2D图像的点.transpose(2, 1) # 尺寸是(BN, k, 4)
2D深度检测Mark = (2D图像的点[:, :, 2] > 0.0).bool() # 投影点的深度(z坐标)是否为正值,排除位于相机后方的点(不可见)
# (X, Y, Z, 1)-> (X/Z, Y/Z, 1, 1)
2D图像的点 = 2D图像的点[0:2]/2D图像的点[2]
# 增加一个维度
2D图像的点 = torch.cat(2D图像的点,ones)
# 通过 ida_pinhole(图像坐标系转移矩阵)将归一化坐标映射到图像像素坐标。该矩阵通常包含焦距和主点偏移,完成从相机坐标系到图像平面的投影。
2D图像的点 = 图像坐标系转移矩阵 @ 2D图像的点
# 缩放
2D图像的点 = 2D图像的点/下采样系数
# 滤除无效区域的Mark
2D的X轴检测Mark = (2D图像的点> -0.5).bool() & (2D图像的点< float(宽度 - 0.5)).bool()
2D的Y轴检测Mark = (2D图像的点> -0.5).bool() & (2D图像的点< float(宽度 - 0.5)).bool()
有效性Mark = (2D深度检测Mark& 2D的X轴检测Mark & 2D的Y轴检测Mark)
对于鱼眼相机
py
3D相机的点 = 外参逆矩阵 @ 3D点 #
内参矩阵的仿射部分 = 内参[:2,:2] # (焦距和轴间缩放),用于将归一化坐标映射到图像平面
内参矩阵中的主点坐标 = 内参[0:2, 2](图像中心偏移),用于投影时的平移校正。
计算径向距离 = X² + Y² 的平方根
入射角 = torch.atan2(3D相机的点, 计算径向距离)
径向畸变系数 = self.polyval(畸变系数, 入射角, Kannala-Brandt模型) # 根据入射角 theta 计算径向畸变系数 rho
归一化的3D点 = 3D相机的点 × rho ÷ 计算径向距离
2D鱼眼点 = (内参矩阵的仿射部分 @ 归一化的3D点) + 内参矩阵中的主点坐标
# 通过 ida_fisheye(图像坐标系转移矩阵)将归一化坐标映射到图像像素坐标。该矩阵通常包含焦距和主点偏移,完成从相机坐标系到图像平面的投影。
2D鱼眼点 = ida_fisheye @ 2D鱼眼点 # 从相机坐标系到图像平面的投影
2D鱼眼点 = 鱼眼点/下采样系数
# 和针孔相机一样
有效性Mark = (2D深度检测Mark& 2D的X轴检测Mark & 2D的Y轴检测Mark)
最后返回的是:点
和 有效性Mark
- 函数
gridcloud3d()
功能是:
函数通过非均匀采样生成三维网格点云,每个网格位置对应一个点,但不同区域的点密度可能不同。具体来说:
- 函数
forward_kestrel()
,功能是:
该函数通过多相机特征采样与体素聚合,将鸟瞰图特征映射到3D空间并压缩生成统一表征。
py
def forward_kestrel(self, input):
# 获得Neck传过来的特征
features = input["bev_neck_features"]
# features 复制Z次并在通道维度拼接
features = torch.cat([features] * Z, 1)
# 特征尺寸调整
features = features.reshape(self.num_cams * Z, -1, 60, 128)
# 得到 unproject_image_to_mem() 计算的xyz_pix 和 有效性Mark
xyz_pix , valid_mask= ...
# 将2D特征映,通过xyz_pix ,利用GridSampleFuction映射函数,映射到3D特征
trans_feats = self.GridSampleFuction().apply(features, xyz_pix, "bilinear",
"zeros", None)
# 有效性Mark 删除
values = trans_feats* valid_mask
# 特征被重塑
values = values.reshape(B, self.num_cams, -1, X, Y)
# 通道相加
feat_mem = torch.sum(values, dim=1)
# 通过 conv_norm 压缩成鸟瞰图特征
feat_bev = self.bev_z_compressor(feat_mem)
return feat_bev
首先是:输入的features被复制Z次并在通道维度拼接,使用reshape将特征调整为(num_cams * Z, -1, 60, 128),这里num_cams可能代表相机数量,Z是体素深度层数。
然后:GridSampleFuction应用双线性采样,将特征映射到新的坐标,生成trans_feats。
然后:特征被重塑为(B, num_cams, -1, X, Y)。feat_mem 是将多个相机视角的3D特征沿相机数量维度(dim=1)求和后的融合特征,目的是整合不同视角的信息,得到feat_mem。
最后: 最后通过bev_z_compressor压缩成鸟瞰图特征feat_bev。
- 函数
unproject_image_to_mem()
,功能是:得到xyz_pix, valid_mask,用于后续的GridSampleFuction采用。
py
def unproject_image_to_mem(self, features, block_idxs, extrinsic, intrinsic, dist_mat, dist_type, ida_mat, X, Y, Z):
BN, C, H, W = features.shape
# get proj point on the feature map and then normalize to [-1, 1]
xyz_feat, valid_mask = self.bev_coord_to_feature_coord(features, block_idxs, extrinsic, intrinsic, dist_mat, ida_mat, dist_type)
x, y = xyz_feat[:, :, 0], xyz_feat[:, :, 1]
x_norm, y_norm = self.normalize_grid2d(x, y, W, H)
xyz_pix = torch.stack([x_norm, y_norm], axis=1)
#import pdb; pdb.set_trace()
xyz_pix = rearrange(xyz_pix, "n d (x y z) -> n (z d) x y", x=X, y=Y, z=Z)
valid_mask = rearrange(valid_mask, "n (x y z) -> n z x y", x=X, y=Y, z=Z)
return xyz_pix, valid_mask
首先通过 bev_coord_to_feature_coord()
得到 2D点和有效性Mark
按照前述分析 2D 尺寸应该是类似(bn, k, 2)
,这里bn是批处理大小,k是栅格的数量(通过gridcloud3d()
获得),2是xy坐标。
对2D点的x和y进行归一化到[-1,1],分别除以宽和高,组成新的 2D点。
最后,将三维空间中的点按高度(Z轴)分层,每层对应一个二维网格(X-Y平面)
问文心一言的问题:LSS(Lift-Splat-Shoot)和BEVDepth在3D点处理上有以下核心区别
回答:
LSS(Lift-Splat-Shoot)和BEVDepth在3D点处理上有以下核心区别:
LSS的3D点
- 全体视锥体栅格:LSS将图像特征提升到整个相机视锥体对应的3D体素网格中,覆盖所有可能的深度层(如0-100米,按固定间隔分层)。
- 概率分布:每个像素的特征会被分配到多个深度层,形成概率分布(通过深度预测或几何计算),而非单一深度值。
- 目的:构建全局3D场景表示,适用于复杂场景理解(如多物体遮挡、非地面目标检测)。
BEVDepth的栅格
- BEV平面聚焦:BEVDepth通常将特征投影到鸟瞰图(BEV)平面的栅格中(如地面区域),每个栅格对应一个位置,深度预测用于确定该位置是否存在有效特征。
- 单一深度假设:每个栅格可能仅保留最可能的深度值(如通过深度网络预测),或基于几何投影选择有效层。
- 目的:高效生成BEV空间特征,尤其适合自动驾驶中地面目标检测(如车辆、行人),减少计算冗余。
栅格点数量减少
- LSS:在全体视锥体空间生成三维体素网格(如 100 层深度 × X×Y),覆盖整个相机视野的 3D 空间。
- BEVDepth:将特征投影到二维 BEV 平面栅格(如地面区域),仅保留与地面感知相关的位置,深度维度被压缩为单层(通过深度预测或几何投影筛选)。
- 结论:BEVDepth 的栅格点数量显著减少(从三维到二维),降低了显存占用和计算复杂度。
总结:
- LSS的3D点是全体视锥体的分层栅格,强调3D空间的完整建模。
- BEVDepth的栅格是BEV平面的深度预测结果,侧重地面区域的紧凑表示。
- 两者均可结合使用(如BEVDepth可能用LSS作为 backbone),但核心差异在于对3D空间的覆盖范围和深度建模方式。