13.3 目标检测和边界框

锚框的计算公式

假设原图的高为H ,宽为W

详细公式推导

以同一个像素点为锚框,可以生成 (n个缩放 + m个宽高比 -1 )个锚框


锚框的作用:

不用直接去预测真实框的四个坐标,而是:

1.先生成多个锚框。

2.预测每个锚框里是否含有要预测的目标。

3.如果是,预测从这个锚框到真实框的偏移(一般是中心点的偏移)。

计算锚框与真实框的IOU

python 复制代码
def box_iou(boxes1,boxes2):
    '''
    :param boxes1: shape = (boxes1的数量,4)
    :param boxes2: shape = (boxes2的数量,4)
    :param areas1: boxes1中每个框的面积 ,shape = (boxes1的数量)
    :param areas2: boxes2中每个框的面积 ,shape = (boxes2的数量)
    :return:
    '''
    # 定义一个Lambda函数,输入boxes,内容是计算得到框的面积
    box_area = lambda  boxes:((boxes[:,2] - boxes[:0]) * (boxes[:3] - boxes[:0]))
    # 计算面积
    areas1 = box_area(boxes1)
    areas2 = box_area(boxes2)
    # 计算交集 要把所有锚框的左上角坐标 与 真实框的所有左上角坐标 作比较,大的就是交集的左上角 ,加个None 可以让锚框与所有真实框作对比
    inter_upperlefts = torch.max(boxes1[:,None,:2],boxes2[:,:2])
    # 把所有锚框的右下角坐标 与 真实框的所有右下角坐标 作比较,小的就是交集的右下角坐标 ,加个None 可以让锚框与所有真实框作对比
    inter_lowerrights = torch.min(boxes1[:,None,2:],boxes2[:,2:])
    # 如果右下角-左上角有元素小于0,那就说明没有交集,clamp(min-0)会将每个元素与0比较,小于0的元素将会被替换成0
    inters = (inter_lowerrights - inter_upperlefts).clamp(min=0) # 得到w和h
    inter_areas = inters[:,:,0] * inters[:,:,1] # 每个样本的 w*h
    
    # 求锚框与真实框的并集
    # 将所有锚框与真实框相加,他们会多出来一个交集的面积,所以要减一个交集的面积
    union_areas = areas1[:,None] * areas2 - inter_areas
    return inter_areas/union_areas

给训练集标注锚框

每个锚框包含的信息有:每个锚框的类别 和 偏移量。

偏移量指的是:真实边界相对于锚框的偏移量。

预测时:为每张图片生成多个锚框,预测所有锚框的类别和偏移量。

举例

假设有4个真实框 B1,B2,B3,B4。
9个锚框A1,A2,A3,A4,A5,A6,A7,A8,A9。

如上,每个真实框都要与所有的锚框计算IOU,如X23,在第三列,拥有最大的IOU,如果该IOU大于阈值,那么第2个锚框的类别就是B3,分配完类别之后,第二个锚框和第3个真实框将不再参与,表现为上面的矩阵去掉第二行第三列。

补充:

训练集不是光使用标注的真实的框做标签来训练吗?为啥要锚框当做训练样本?

应该是扩大训练集的方式,如果只有一张图片,上面标注上了一个真实的框,那么就只有一个训练样本,如果生成一些锚框,根据真实的框,计算IOU,来给生成的锚框标记上相应的类别和与真实框的中心值偏移量,那么这些锚框也成为了训练样本。

lambda匿名函数

它可以用于简洁地定义一个单行的函数

python 复制代码
add = lambda x, y: x + y
print(add(2, 3))  # 输出结果为 5

torch.max(boxes1:, None, :2, boxes2:, :2)

python 复制代码
import torch # 定义两个张量
boxes1 = torch.tensor([[1, 2, 3, 4], [5, 6, 7, 8]]) # 形状为(2, 4)
boxes2 = torch.tensor([[2, 3,4,5], [6, 7,8,9]])
print(boxes1.shape, boxes2.shape)

torch.Size(2, 4) torch.Size(2, 4)

python 复制代码
print(boxes1[:, None, :2])
print(boxes1[:, None, :2].shape)
python 复制代码
tensor([[[1, 2]],

        [[5, 6]]])
torch.Size([2, 1, 2]) 变成了两个通道,每个通道有个一行两列的元素
python 复制代码
boxes2[:,:2]
python 复制代码
tensor([[2, 3],
        [6, 7]])
python 复制代码
print(torch.max(boxes1[:, None, :2], boxes2[:, :2]))
torch.max(boxes1[:, None, :2], boxes2[:, :2]).shape
python 复制代码
tensor([[[2, 3],
         [6, 7]],

        [[5, 6],
         [6, 7]]]) 
torch.Size([2, 2, 2]) 变成两个通道,每个通道有两行,每行有两列的元素
python 复制代码
print(torch.max(boxes1[:, :2], boxes2[:, :2]))
python 复制代码
tensor([[2, 3],
        [6, 7]])
相关推荐
意图共鸣4 小时前
意图共鸣科技《AI记忆链商业化白皮书3.0》技术解读:“AI焦虑的解药”——从通用AI到个人记忆链架构
人工智能·科技·架构
小e说说4 小时前
AI 时代,IT 职业教育如何为学习者赋能?——职坐标的 AI+教育实践
人工智能
后端小肥肠4 小时前
不会做视频的我,用 Codex 跑通口播 + 自动剪辑,获客 20+
人工智能·aigc·agent
某林2124 小时前
跨越底层与AI的鸿沟:ROS2+多模态大模型(Qwen-VL)机器人全链路排障实录
人工智能·stm32·机器人·人机交互·ros2·技术复盘
怪兽学LLM4 小时前
LeetCode 438 找到字符串中所有字母异位词(Python 固定滑动窗口+字符计数解法)
python·算法·leetcode
没事别瞎琢磨4 小时前
二、类型系统——给所有概念起名字
人工智能·node.js
麻雀飞吧4 小时前
期货量化日志别泄露密码:天勤账户凭证脱敏写法
python
卡梅德生物科技小能手4 小时前
卡梅德生物科普:MAPT(微管相关蛋白Tau)
人工智能·经验分享·机器学习
CC数学建模4 小时前
2026年江西省研究生数学建模竞赛1题:空间数据分析中的过拟合识别完整思路、代码、模型、文章,全网首发高质量分享!
python·算法·数学建模
matlabgoodboy4 小时前
计算机java程序代写python代码编写c/c++代做qt设计php开发matlab
java·c语言·python