吃透底层数学，真正读懂深度学习模型

2026三掌柜赠书活动第三十五期深度学习的数学工程：模型背后的数学原理

前言

当下，深度学习已经全面渗透到人工智能产业的各个角落，图像识别、自然语言处理、智能推荐、自动驾驶等热门应用，均以各类深度学习模型作为核心支撑。随着 PyTorch、TensorFlow 等主流开源框架不断简化调用流程，搭建模型、完成基础训练的门槛持续降低，越来越多初学者能够快速上手模型实操。但在实际学习与工作中，一个普遍的困境逐渐凸显：多数从业者仅停留在调用接口、堆叠网络层、反复调试参数的浅层应用阶段，面对模型训练不收敛、泛化能力差、过拟合、推理速度缓慢等问题时，往往束手无策，只能依靠经验盲目试错，难以从根源上排查并解决故障。当需要根据业务场景定制网络结构、优化算法性能、开展前沿算法研究时，这种 "知其然，不知其所以然" 的短板会被进一步放大，严重限制个人技术成长与职业发展。

深度学习与数学的共生关系

在深度学习工程体系中，数学从来不是孤立的理论知识，而是贯穿数据处理、模型搭建、训练调优、部署优化全流程的底层逻辑。我们日常接触的每一行代码、每一个网络层、每一次参数更新，都对应着明确的数学定义与运算规则。

从数据预处理阶段开始，数学就发挥着关键作用。原始图像、文本、音频数据格式杂乱、维度不一，无法直接输入神经网络。此时线性代数中的向量、矩阵、张量知识成为基础工具：单张灰度图像可以表示为二维矩阵，彩色图像则拓展为三维张量，文本分词后通过词向量映射为高维向量，所有数据统一转化为标准化的数学形态，为后续运算奠定基础。而数据归一化、标准化、降维等常用预处理操作，本质也是矩阵变换、范数计算、奇异值分解等线性代数方法的工程落地，其目的是优化数据分布，降低模型训练难度。

进入模型架构设计环节，不同网络的特性差异完全由数学逻辑决定。传统全连接网络依托基础矩阵乘法完成特征映射；卷积神经网络（CNN）依靠卷积运算、池化运算提取局部特征，其权值共享、滑动窗口的设计，本质是简化后的矩阵运算，大幅降低计算量；循环神经网络（RNN）针对时序数据设计，利用矩阵递推运算记录历史信息，适配语音、文本等序列任务；如今风靡各大场景的 Transformer 模型，核心依赖矩阵点积、维度变换实现多头注意力机制，依靠数学运算捕捉长距离依赖关系。理解这些数学原理，就能明白不同模型的适用场景、优势与短板，不再盲目套用网络结构。

模型训练过程，更是微积分与优化理论的主场。神经网络的学习目标，是不断缩小预测结果与真实标签之间的误差，这一误差由损失函数量化。而梯度下降、随机梯度下降（SGD）、Adam、RMSprop 等优化算法，通过求导、链式法则反向传递误差，沿着梯度方向持续更新网络权重，让损失函数逐步逼近最小值。很多人遇到模型训练震荡不收敛、陷入局部最优解、训练速度过慢等问题，本质都是对梯度特性、学习率、优化器数学原理理解不足。掌握相关数学知识，才能合理选择优化器、设置学习率、设计损失函数，高效完成模型训练。

模型评估与泛化优化阶段，则离不开概率论与数理统计。分类任务中常用的交叉熵损失、对数似然损失，基于概率分布设计，用于衡量模型预测概率与真实分布的差距；Dropout、早停等防过拟合策略，依托随机抽样、概率统计思想，提升模型泛化能力；模型准确率、召回率、置信区间等评估指标，同样建立在统计理论之上。可以说，脱离数学，深度学习工程就如同无源之水，难以稳定运行与迭代优化。

关于《深度学习的数学工程：模型背后的数学原理》

接下来给大家推荐一本关于深度学习数学知识的书籍，这是一本解析深度学习模型底层数学原理的干货图书，上市后备受AI领域从业者与学习者的青睐，收获了业内众多专业人士的推荐。本书系统梳理深度学习涉及的各类数学知识，拆解卷积神经网络、Transformer等主流模型背后的数学逻辑，帮助读者穿透算法黑箱，夯实深度学习理论根基，助力大家在深度学习学习与项目实践中走得更远！另外，关注本文博主，点赞+收藏本文，且在本文评论区评论"入手深度学习的数学工程"，将选取三名幸运读者送出纸质版《深度学习的数学工程：模型背后的数学原理》一本，截止时间：2026.07.05。入手《深度学习的数学工程：模型背后的数学原理》传送门：《深度学习的数学工程：模型背后的数学原理深度学习数学机器学习神经网络transformer大模型数学异步图书出品》( $法$ 贝努瓦·利凯（Benoit Liquet），等)【摘要书评试读】- 京东图书或者《深度学习的数学工程：模型背后的数学原理》( $法$ 贝努瓦·利凯（Benoit Liquet） $澳$ 萨拉特·莫卡（Sarat)【简介_书评_在线阅读】 - 当当图书，个人觉得这本书非常的不错，是一本不可多得的好书，值得拥有去学习。

编辑推荐

零编程门槛：聚焦深度学习的数学本质，不依赖任何编程知识，适合AI行业工程、物理、数学等领域的读者，快速掌握神经网络、扩散模型等核心原理，实现真正的"跨学科贯通"。

体系化学习路径：涵盖当下热门的扩散模型、生成对抗网络、强化学习、图神经网络等前沿内容，既可按章节顺序逐层深入，也可按需跳转查阅特定模型，符合读者的阅读习惯。

专家倾力献译：由小米集团AI实验室主任、NLP首席科学家王斌倾情献译，确保术语准确、表达严谨。原版作者均为国际知名学者，内容经过多所高校验证，兼备学术性与实践性。

丰富配套资源：配套学习网站（Mathematical Engineering of Deep Learning），内含扩展练习题、暑期课程录制视频、教学PPT、案例源代码、公式证明细节等，不仅适合个人快速自学入门，也适合教师构建课程体系。

内容简介

本书为读者提供了一个全面而系统的深度学习数学框架，旨在帮助读者深入理解深度学习的数学本质，并掌握其基础及前沿技术。

本书共8章。第1章介绍深度学习的定义、应用、核心要素及数学符号等内容，奠定深度学习的数学与技术基础；第2章详解机器学习原理，包括数据处理、监督与无监督学习、线性模型、迭代优化、泛化、正则化技术等；第3章从统计学和深度学习视角解析 logistic 回归模型，概述softmax与浅层自编码器；第4章讲解梯度下降、ADAM等优化算法及自动微分，并概述一阶与二阶方法；第5章探讨前馈深度神经网络的表达力、激活函数、反向传播算法及训练关键技术等内容；第6章解析卷积神经网络的数学原理、架构，介绍经典模型及计算机视觉任务等内容；第7章聚焦序列模型、注意力机制及 Transformer 的结构与应用；第8章涵盖生成模型、强化学习与图神经网络，展示深度学习的多样化应用方向。

本书适合机器学习和深度学习等领域的专业人员参考阅读，也适合对深度学习数学框架感兴趣的初学者和研究者阅读。

作者简介

贝努瓦·利凯（Benoit Liquet）：麦考瑞大学数学与物理科学学院教授。研究方向为高维数据、大数据、组学数据、模型选择、降维与半参数模型、多状态模型、生存模型和多重检验。

萨拉特·莫卡（Sarat Moka）：悉尼新南威尔士大学数学与统计学院讲师，兼任麦考瑞大学数学与物理科学学院荣誉研究员。研究方向为计算统计学、应用概率、机器学习和深度学习。

尤尼·纳扎拉西（Yoni Nazarathy）：昆士兰大学数学与物理学院副教授。研究方向为机器学习、应用概率、统计学、运筹学、仿真、科学计算、控制论、排队论、调度和数学教育。

图书目录

第 1 章引言 1

11 深度学习时代 1

111 深度学习初探 2

112 超越分类 4

113 深度学习的应用领域 5

114 深度学习涉及的角色 6

12 任务和架构概览 6

121 前馈全连接神经网络 7

122 自编码器 7

123 卷积神经网络 9

124 循环神经网络、长短期记忆网络和门控循环单元 9

125 Transformer 和注意力机制 9

126 扩散模型和其他变分自编码器 10

127 生成对抗网络 10

128 深度强化学习 10

129 图神经网络 11

13 深度学习的核心要素 11

131 神经网络与人造大脑 11

132 算力 13

133 大规模数据集 13

134 互联网、软件实践和开源 14

14 数据 15

15 作为数学工程学科的深度学习 18

151 本书使用的数学 19

152 通过高等数学发展和研究深度学习 19

16 符号和数学背景知识 20

注释与参考文献 21

第 2 章机器学习原理 23

21 机器学习的关键活动 23

211 数据的划分 25

212 数据预处理 26

213 学习≈优化 27

22 监督学习 27

221 回归和特征工程 27

222 二分类 29

223 监督学习的方法和算法 33

23 本书的核心：线性模型 34

231 线性模型的学习 34

232 其他损失函数 36

233 类别型输入特征 37

234 多分类 38

24 基于迭代优化的学习 41

241 线性模型的学习率分析 42

242 损失景观和输入的标准化 43

25 泛化、正则化和验证 45

251 未见数据上的性能 46

252 模型选择、欠拟合和过拟合 47

253 偏差和方差分解 49

254 添加正则化项 50

255 超参数校准和交叉验证 51

26 无监督学习概览 53

261 k 均值聚类 53

262 基于 k 均值算法的图像分割 55

263 无监督学习中的矩阵 56

264 主成分分析 57

265 PCA 的推导 58

266 通过 SVD 的 PCA 59

267 SVD 用于压缩 60

注释与参考文献 61

第 3 章简单神经网络 64

31 统计中的 logistic 回归模型 64

311 模型 65

312 logistic 分布简介 65

313 极大似然估计 66

314 二元交叉熵损失 67

315 预测概率和参数可解释性 68

316 基于 logistic 回归模型的分类器是线性分类器 69

32 logistic回归模型是一个浅层神经网络 71

321 logistic 回归模型是一个人工神经元 71

322 logistic 回归模型的训练 72

323 交叉熵损失的一些优点 73

33 多分类问题与 softmax 74

331 模型 74

332 softmax 函数和作为浅层神经网络的多项式回归模型 76

333 似然和交叉熵 77

334 导数和学习 79

335 多项式回归模型的分类产生凸多面体决策区域 80

34 超越线性决策边界 82

341 sigmoid 响应函数的增强 82

342 多项式特征工程的一般设置 83

343 一般分类边界 84

35 浅层自编码器 86

351 自编码器原理 86

352 单层自编码器 87

353 PCA 是一种自编码器 89

354 自编码器作为非线性 PCA 的一种形式 91

355 应用和架构 92

注释与参考文献 95

第 4 章优化算法 96

41 优化问题的形式化表述 96

411 一般设置 96

412 局部极小点和全局最小点 97

413 凸性和鞍点 98

414 深度学习中的目标函数 99

415 某些浅层神经网络的凸性 99

416 下降方向方法的一般方法 101

42 深度学习背景下的优化 102

421 基本梯度下降法面临的挑战 103

422 随机梯度下降 104

423 小批量和轮次 106

424 最小化损失是最优性能的替代指标 107

43 ADAM 算法 109

431 自适应优化和指数平滑 110

432 动量 110

433 每个分量的自适应学习率 111

434 指数平滑的偏差校正 113

435 完整 ADAM 算法 114

44 自动微分 115

441 数值微分和符号微分 115

442 可微编程概述 116

443 计算图和前向模式自动微分 118

444 反向模式自动微分 121

45 一阶方法的其他技术 123

451 Nesterov 动量和 Nadam 算法 123

452 AdaDelta 124

453 其他范数和 AdaMax 125

454 线搜索 126

455 非精确线搜索 129

46 二阶方法的概念 130

461 单变量情况 131

462 多变量情况和黑塞矩阵 134

463 拟牛顿法 135

464 BFGS 和 L-BFGS 更新规则 138

注释与参考文献 139

第 5 章前馈深度神经网络 142

51 通用全连接架构 142

511 基于函数组合的模型 144

512 仿射变换与激活函数 144

513 前向传播 145

514 具体维度示例 145

515 模型的标量视图 146

516 跨多个样本的向量化 146

517 模型训练概述 147

52 神经网络的表达力 148

521 简单函数逼近 148

522 通用逼近定理 149

523 隐层的优势 150

524 通过简单模型实现特定的函数 150

525 神经网络特征的聚焦性 152

526 深度增加带来的表达力提升 153

53 激活函数的选择 154

531 标量激活函数及其导数 154

532 非标量激活函数及其导数 156

54 反向传播算法 157

541 一般递归模型的反向传播 157

542 一个展开的示例 159

543 用代替 ζ的反向传播算法 160

544 全连接网络的反向传播 161

545 整个小批量的反向传播 163

546 梯度消失和梯度爆炸 163

55 权重初始化 164

551 Xavier 初始化的推导 165

552 梯度消失或梯度爆炸值的进一步洞察 165

56 批量归一化 166

561 每单元归一化的思想 166

562 生产环境中的批量归一化 167

563 批量归一化参数的反向传播 168

57 用 dropout 和正则化缓解过拟合 169

571 dropout 169

572 将 dropout 视为集成的近似 171

573 添加正则化项和权重衰减 172

注释与参考文献 173

第 6 章卷积神经网络 175

61 CNN 概述 175

611 滤波 176

612 VGG19 网络 177

62 卷积运算 178

621 线性时不变系统中的卷积 178

622 概率中的卷积 179

623 多项式乘法和卷积矩阵 180

624 多维推广 181

625 再谈边缘检测 183

63 构建卷积层 184

631 卷积层的动机 184

632 填充、步长和扩张 187

633 多通道输入 190

634 多通道输出 192

64 构建 CNN 193

641 卷积层 193

642 池化层 194

643 全连接层 195

644 VGG19 再探讨 196

645 1×1 卷积和全卷积网络 197

646 dropout、批量归一化和组归一化 198

647 理解内部层和派生特征 199

65 Inception、ResNet 和其他标志性架构 201

651 简要历史回顾 201

652 Inception 和网络中的网络 202

653 残差连接 203

654 EfficientNet 模型 204

66 超越分类 205

661 CNN 与关键计算机视觉任务 205

662 目标定位 207

663 人脸识别、孪生网络和三元组损失 208

注释与参考文献 210

第 7 章序列模型 212

71 序列数据的模型和活动概述 212

711 序列数据的形式 213

712 涉及序列数据的任务 213

713 词嵌入 216

72 基本循环神经网络 217

721 一个简单的具体示例 220

722 用随时间反向传播训练 RNN 221

723 计算中的挑战 224

724 训练的其他方面 225

73 RNN 的扩展和改进 226

731 堆叠门和反转门 226

732 长短期记忆模型 227

733 门控循环单元模型 230

74 编码器-解码器和注意力机制 231

741 用于机器翻译的编码器-解码器架构 231

742 注意力机制 233

743 基于注意力机制的编码器-解码器 234

744 注意力权重的示例 235

745 打分函数的变体 236

746 训练编码器-解码器模型 237

75 Transformer 237

751 自注意力 238

752 多头自注意力 240

753 位置嵌入 241

754 Transformer 块 242

755 编码器-解码器框架 245

756 在生产和训练中使用编码器-解码器 247

注释与参考文献 249

第 8 章特定架构与范式 251

81 生成式建模原理 251

811 变分自编码器 253

812 变分自编码器的编码器-解码器架构 255

813 与极大似然和 ELBO 的关系 256

814 损失函数的细节 257

815 重参数化技巧 258

82 扩散模型 259

821 层次变分自编码器 260

822 扩散模型假设 262

823 损失函数 263

824 重参数化技巧和损失简化 264

83 GAN 266

831 GAN 生成式建模方法 267

832 训练 GAN 268

833 最小化 JS 散度 269

834 目标函数的变体 270

835 超越 GAN 数据生成 275

84 强化学习 277

841 马尔可夫决策过程 278

842 贝尔曼方程、价值函数和 Q函数 281

843 贝尔曼方程的求解 282

844 Q 学习 283

845 深度强化学习 284

85 图神经网络 285

851 GNN 的应用 285

852 图结构 286

853 输入数据和任务的结构 289

854 GNN 模型的一般结构 290

855 消息传递方案 292

856 模型变体 293

注释与参考文献 296

附录 A 多元微积分初步 299

附录 B 交叉熵及其他对数期望 308

后记 311

《深度学习的数学工程：模型背后的数学原理》全书速览

结束语

人工智能行业高速发展的浪潮中，框架工具不断迭代、模型算法持续更新，但支撑深度学习发展的底层数学原理始终未曾改变。工具可以快速学习、代码可以模仿复用，但扎实的理论功底、看透问题本质的能力，才是技术人员长久立足行业的核心竞争力。很多人深陷 "调参内卷"，耗费大量时间精力却难以实现技术突破，本质就是忽略了数学这一底层根基，始终徘徊在技术表层。深度学习的学习之路，从来不是一味追求代码数量与案例堆砌，而是循序渐进、由表及里的沉淀过程。读懂底层数学，你才能真正解锁深度学习的核心能力，既能熟练驾驭各类框架与模型完成工程开发，也能从容应对复杂场景下的技术优化与算法创新。