Day24_【深度学习—广播机制】

广播机制用于判断两个不同形状的张量 是否可以进行逐元素运算(如 +, -, * 等)。它的规则是从最后一个维度开始,从右往左逐一比较两个张量的维度大小。

只要每一个维度都满足以下三条规则中的任意一条,广播就可以成功。


📌 规则 1:维度大小相等

解释:两个张量在当前比较的这个维度上,它们的"长度"或"大小"是一样的。

例子

复制代码
a = torch.tensor([[1, 2, 3],    # 形状: (2, 3)
                  [4, 5, 6]])
b = torch.tensor([[7, 8, 9],    # 形状: (2, 3)
                  [10,11,12]])

我们从右往左比较:

  • 第1维(列)a3b 也是 3 → ✅ 相等,兼容
  • 第0维(行)a2b 也是 2 → ✅ 相等,兼容

✅ 所有维度都相等 → 可以直接运算,无需广播。


📌 规则 2:其中一个维度的大小为 1

解释 :在当前比较的维度上,只要有一个张量的大小是 1,它就可以被"复制"多次,扩展到和另一个张量一样长。

例子

复制代码
a = torch.tensor([[1, 2, 3],    # 形状: (2, 3)
                  [4, 5, 6]])
b = torch.tensor([1, 1, 1])     # 形状: (3,)

从右往左比较:

  • 第1维(列)a3b3 → ✅ 相等,兼容

  • 第0维(行)a2b 是?

    注意:b 只有一个维度,所以它没有第0维(见规则3),但我们先看这个维度的大小。

    实际上,在广播中,b 被视为形状 (1, 3)(前面补一个1),所以:

    • a 第0维:2
    • b 第0维:1 → ✅ 有一个是 1,兼容

✅ 所有维度都兼容 → 可以广播!

广播过程b = [1, 1, 1] 被自动扩展成:

复制代码
[[1, 1, 1],
 [1, 1, 1]]

然后与 a 逐元素相加。

复制代码
c = a + b
# 结果:
# [[2, 3, 4],
#  [5, 6, 7]]

📌 规则 3:其中一个张量在该维度上不存在(即维度数更少)

解释 :两个张量的总维度数不同 ,比如一个是 2D 矩阵,一个是 1D 向量。那么在比较时,维度数少的那个张量,前面缺失的维度被视为大小为 1

这是广播中最容易混淆的一条,我们重点解释。

例子

复制代码
a = torch.tensor([[[1, 2],      # 形状: (2, 2, 2)
                   [3, 4]],
                  [[5, 6],
                   [7, 8]]])

b = torch.tensor([10, 20])      # 形状: (2,)
  • a 是 3D 张量:形状 (2, 2, 2)
  • b 是 1D 向量:形状 (2,)

从右往左比较:

维度位置 a 的大小 b 的大小 是否兼容 说明
第2维(最右) 2 2 ✅ 相等 规则1
第1维 2 ? ? b 没有第1维 → 视为 1 ✅
第0维 2 ? ? b 没有第0维 → 视为 1 ✅

所以 b 在广播中被视为形状 (1, 1, 2)

然后它被扩展为 (2, 2, 2)

复制代码
[[[10, 20],
  [10, 20]],
 [[10, 20],
  [10, 20]]]

然后与 a 相加。


🔁 广播的"从右往左"原则(非常重要!)

广播总是从最后一个维度开始比较,而不是从第一个。

例子

复制代码
a = torch.randn(3, 1)   # 形状: (3, 1)
b = torch.randn(   2)   # 形状: (2,)

比较:

  • 第1维(列):a1b2 → 一个为 1 ✅(规则2)
  • 第0维(行):a3b 没有 → 视为 1 ✅(规则3)

✅ 可广播!结果形状 (3, 2)

但如果:

复制代码
a = torch.randn(1, 3)   # (1, 3)
b = torch.randn(2,   )   # (2,)
  • 第1维:3 vs 2 → 不相等,且都不为 1 → ❌ 不兼容!广播失败!

✅ 总结:三条规则的通俗理解

规则 通俗说法 例子
1. 大小相等 "你们长度一样,可以直接比" (3,)(3,)
2. 有一个是 1 "你只有1个,我可以复制你" (2, 1)(2, 5)
3. 一个不存在 "你维度少,我把你前面补1" (2, 3)(3,)(3,) 视为 (1, 3)
相关推荐
Allenlzcoder9 分钟前
掌握机器学习算法及其关键超参数
人工智能·机器学习·超参数
LaughingZhu10 分钟前
Product Hunt 每日热榜 | 2025-10-26
人工智能·经验分享·搜索引擎·产品运营
2401_8414956410 分钟前
【自然语言处理】Transformer模型
人工智能·python·深度学习·算法·语言模型·自然语言处理·transformer
KG_LLM图谱增强大模型11 分钟前
[ICAIS2025]探索LLM驱动的知识图谱构建:技术机制、方法对比与未来方向
人工智能·知识图谱·graphrag·知识图谱增强大模型
CH_Qing12 分钟前
【ROS2】驱动开发-雷达篇
人工智能·ros2·1024程序员节
孤廖12 分钟前
面试官问 Linux 编译调试?gcc 编译流程 + gdb 断点调试 + git 版本控制,连 Makefile 都标好了
linux·服务器·c++·人工智能·git·算法·github
星期天要睡觉20 分钟前
什么是提示词(Prompt),提示词类型、结构解析
人工智能·语言模型
深度学习lover28 分钟前
<数据集>yolo煤矿安全帽识别数据集<目标检测>
人工智能·python·深度学习·yolo·目标检测·计算机视觉·煤矿安全帽识别
前端双越老师37 分钟前
建议应届毕业生不要再做前端开发了
人工智能·面试·ai编程
aneasystone本尊41 分钟前
学习 Dify 的工具系统
人工智能