2026三掌柜赠书活动第三十五期 深度学习的数学工程:模型背后的数学原理
目录
前言
当下,深度学习已经全面渗透到人工智能产业的各个角落,图像识别、自然语言处理、智能推荐、自动驾驶等热门应用,均以各类深度学习模型作为核心支撑。随着 PyTorch、TensorFlow 等主流开源框架不断简化调用流程,搭建模型、完成基础训练的门槛持续降低,越来越多初学者能够快速上手模型实操。但在实际学习与工作中,一个普遍的困境逐渐凸显:多数从业者仅停留在调用接口、堆叠网络层、反复调试参数的浅层应用阶段,面对模型训练不收敛、泛化能力差、过拟合、推理速度缓慢等问题时,往往束手无策,只能依靠经验盲目试错,难以从根源上排查并解决故障。当需要根据业务场景定制网络结构、优化算法性能、开展前沿算法研究时,这种 "知其然,不知其所以然" 的短板会被进一步放大,严重限制个人技术成长与职业发展。
深度学习与数学的共生关系
在深度学习工程体系中,数学从来不是孤立的理论知识,而是贯穿数据处理、模型搭建、训练调优、部署优化全流程的底层逻辑。我们日常接触的每一行代码、每一个网络层、每一次参数更新,都对应着明确的数学定义与运算规则。
从数据预处理阶段开始,数学就发挥着关键作用。原始图像、文本、音频数据格式杂乱、维度不一,无法直接输入神经网络。此时线性代数中的向量、矩阵、张量知识成为基础工具:单张灰度图像可以表示为二维矩阵,彩色图像则拓展为三维张量,文本分词后通过词向量映射为高维向量,所有数据统一转化为标准化的数学形态,为后续运算奠定基础。而数据归一化、标准化、降维等常用预处理操作,本质也是矩阵变换、范数计算、奇异值分解等线性代数方法的工程落地,其目的是优化数据分布,降低模型训练难度。
进入模型架构设计环节,不同网络的特性差异完全由数学逻辑决定。传统全连接网络依托基础矩阵乘法完成特征映射;卷积神经网络(CNN)依靠卷积运算、池化运算提取局部特征,其权值共享、滑动窗口的设计,本质是简化后的矩阵运算,大幅降低计算量;循环神经网络(RNN)针对时序数据设计,利用矩阵递推运算记录历史信息,适配语音、文本等序列任务;如今风靡各大场景的 Transformer 模型,核心依赖矩阵点积、维度变换实现多头注意力机制,依靠数学运算捕捉长距离依赖关系。理解这些数学原理,就能明白不同模型的适用场景、优势与短板,不再盲目套用网络结构。
模型训练过程,更是微积分与优化理论的主场。神经网络的学习目标,是不断缩小预测结果与真实标签之间的误差,这一误差由损失函数量化。而梯度下降、随机梯度下降(SGD)、Adam、RMSprop 等优化算法,通过求导、链式法则反向传递误差,沿着梯度方向持续更新网络权重,让损失函数逐步逼近最小值。很多人遇到模型训练震荡不收敛、陷入局部最优解、训练速度过慢等问题,本质都是对梯度特性、学习率、优化器数学原理理解不足。掌握相关数学知识,才能合理选择优化器、设置学习率、设计损失函数,高效完成模型训练。
模型评估与泛化优化阶段,则离不开概率论与数理统计。分类任务中常用的交叉熵损失、对数似然损失,基于概率分布设计,用于衡量模型预测概率与真实分布的差距;Dropout、早停等防过拟合策略,依托随机抽样、概率统计思想,提升模型泛化能力;模型准确率、召回率、置信区间等评估指标,同样建立在统计理论之上。可以说,脱离数学,深度学习工程就如同无源之水,难以稳定运行与迭代优化。
关于《深度学习的数学工程:模型背后的数学原理》
接下来给大家推荐一本关于深度学习数学知识的书籍,这是一本解析深度学习模型底层数学原理的干货图书,上市后备受AI领域从业者与学习者的青睐,收获了业内众多专业人士的推荐。本书系统梳理深度学习涉及的各类数学知识,拆解卷积神经网络、Transformer等主流模型背后的数学逻辑,帮助读者穿透算法黑箱,夯实深度学习理论根基,助力大家在深度学习学习与项目实践中走得更远!另外,关注本文博主,点赞+收藏本文,且在本文评论区评论"入手深度学习的数学工程",将选取三名幸运读者送出纸质版《深度学习的数学工程:模型背后的数学原理》一本,截止时间:2026.07.05。入手《深度学习的数学工程:模型背后的数学原理》传送门:《深度学习的数学工程:模型背后的数学原理 深度学习数学机器学习神经网络transformer大模型数学 异步图书出品》(法贝努瓦·利凯(Benoit Liquet),等)【摘要 书评 试读】- 京东图书 或者 《深度学习的数学工程:模型背后的数学原理》(法贝努瓦·利凯(Benoit Liquet)澳萨拉特·莫卡(Sarat)【简介_书评_在线阅读】 - 当当图书 ,个人觉得这本书非常的不错,是一本不可多得的好书,值得拥有去学习。

编辑推荐
零编程门槛:聚焦深度学习的数学本质,不依赖任何编程知识,适合AI行业工程、物理、数学等领域的读者,快速掌握神经网络、扩散模型等核心原理,实现真正的"跨学科贯通"。
体系化学习路径:涵盖当下热门的扩散模型、生成对抗网络、强化学习、图神经网络等前沿内容,既可按章节顺序逐层深入,也可按需跳转查阅特定模型,符合读者的阅读习惯。
专家倾力献译:由小米集团AI实验室主任、NLP首席科学家王斌倾情献译,确保术语准确、表达严谨。原版作者均为国际知名学者,内容经过多所高校验证,兼备学术性与实践性。
丰富配套资源:配套学习网站(Mathematical Engineering of Deep Learning),内含扩展练习题、暑期课程录制视频、教学PPT、案例源代码、公式证明细节等,不仅适合个人快速自学入门,也适合教师构建课程体系。
内容简介
本书为读者提供了一个全面而系统的深度学习数学框架,旨在帮助读者深入理解深度学习的数学本质,并掌握其基础及前沿技术。
本书共8章。第1章介绍深度学习的定义、应用、核心要素及数学符号等内容,奠定深度学习的数学与技术基础;第2章详解机器学习原理,包括数据处理、监督与无监督学习、线性模型、迭代优化、泛化、正则化技术等;第3章从统计学和深度学习视角解析 logistic 回归模型,概述softmax与浅层自编码器;第4章讲解梯度下降、ADAM等优化算法及自动微分,并概述一阶与二阶方法;第5章探讨前馈深度神经网络的表达力、激活函数、反向传播算法及训练关键技术等内容;第6章解析卷积神经网络的数学原理、架构,介绍经典模型及计算机视觉任务等内容;第7章聚焦序列模型、注意力机制及 Transformer 的结构与应用;第8章涵盖生成模型、强化学习与图神经网络,展示深度学习的多样化应用方向。
本书适合机器学习和深度学习等领域的专业人员参考阅读, 也适合对深度学习数学框架感兴趣的初学者和研究者阅读。
作者简介
贝努瓦·利凯(Benoit Liquet):麦考瑞大学数学与物理科学学院教授。研究方向为高维数据、大数据、组学数据、模型选择、降维与半参数模型、多状态模型、生存模型和多重检验。
萨拉特·莫卡(Sarat Moka):悉尼新南威尔士大学数学与统计学院讲师,兼任麦考瑞大学数学与物理科学学院荣誉研究员。研究方向为计算统计学、应用概率、机器学习和深度学习。
尤尼·纳扎拉西(Yoni Nazarathy):昆士兰大学数学与物理学院副教授。研究方向为机器学习、应用概率、统计学、运筹学、仿真、科学计算、控制论、排队论、调度和数学教育。
图书目录
第 1 章 引言 1
11 深度学习时代 1
111 深度学习初探 2
112 超越分类 4
113 深度学习的应用领域 5
114 深度学习涉及的角色 6
12 任务和架构概览 6
121 前馈全连接神经网络 7
122 自编码器 7
123 卷积神经网络 9
124 循环神经网络、长短期记忆网络和门控循环单元 9
125 Transformer 和注意力机制 9
126 扩散模型和其他变分自编码器 10
127 生成对抗网络 10
128 深度强化学习 10
129 图神经网络 11
13 深度学习的核心要素 11
131 神经网络与人造大脑 11
132 算力 13
133 大规模数据集 13
134 互联网、软件实践和开源 14
14 数据 15
15 作为数学工程学科的深度学习 18
151 本书使用的数学 19
152 通过高等数学发展和研究深度学习 19
16 符号和数学背景知识 20
注释与参考文献 21
第 2 章 机器学习原理 23
21 机器学习的关键活动 23
211 数据的划分 25
212 数据预处理 26
213 学习≈优化 27
22 监督学习 27
221 回归和特征工程 27
222 二分类 29
223 监督学习的方法和算法 33
23 本书的核心:线性模型 34
231 线性模型的学习 34
232 其他损失函数 36
233 类别型输入特征 37
234 多分类 38
24 基于迭代优化的学习 41
241 线性模型的学习率分析 42
242 损失景观和输入的标准化 43
25 泛化、正则化和验证 45
251 未见数据上的性能 46
252 模型选择、欠拟合和过拟合 47
253 偏差和方差分解 49
254 添加正则化项 50
255 超参数校准和交叉验证 51
26 无监督学习概览 53
261 k 均值聚类 53
262 基于 k 均值算法的图像分割 55
263 无监督学习中的矩阵 56
264 主成分分析 57
265 PCA 的推导 58
266 通过 SVD 的 PCA 59
267 SVD 用于压缩 60
注释与参考文献 61
第 3 章 简单神经网络 64
31 统计中的 logistic 回归模型 64
311 模型 65
312 logistic 分布简介 65
313 极大似然估计 66
314 二元交叉熵损失 67
315 预测概率和参数可解释性 68
316 基于 logistic 回归模型的分类器是线性分类器 69
32 logistic回归模型是一个浅层神经网络 71
321 logistic 回归模型是一个人工神经元 71
322 logistic 回归模型的训练 72
323 交叉熵损失的一些优点 73
33 多分类问题与 softmax 74
331 模型 74
332 softmax 函数和作为浅层神经网络的多项式回归模型 76
333 似然和交叉熵 77
334 导数和学习 79
335 多项式回归模型的分类产生凸多面体决策区域 80
34 超越线性决策边界 82
341 sigmoid 响应函数的增强 82
342 多项式特征工程的一般设置 83
343 一般分类边界 84
35 浅层自编码器 86
351 自编码器原理 86
352 单层自编码器 87
353 PCA 是一种自编码器 89
354 自编码器作为非线性 PCA 的一种形式 91
355 应用和架构 92
注释与参考文献 95
第 4 章 优化算法 96
41 优化问题的形式化表述 96
411 一般设置 96
412 局部极小点和全局最小点 97
413 凸性和鞍点 98
414 深度学习中的目标函数 99
415 某些浅层神经网络的凸性 99
416 下降方向方法的一般方法 101
42 深度学习背景下的优化 102
421 基本梯度下降法面临的挑战 103
422 随机梯度下降 104
423 小批量和轮次 106
424 最小化损失是最优性能的替代指标 107
43 ADAM 算法 109
431 自适应优化和指数平滑 110
432 动量 110
433 每个分量的自适应学习率 111
434 指数平滑的偏差校正 113
435 完整 ADAM 算法 114
44 自动微分 115
441 数值微分和符号微分 115
442 可微编程概述 116
443 计算图和前向模式自动微分 118
444 反向模式自动微分 121
45 一阶方法的其他技术 123
451 Nesterov 动量和 Nadam 算法 123
452 AdaDelta 124
453 其他范数和 AdaMax 125
454 线搜索 126
455 非精确线搜索 129
46 二阶方法的概念 130
461 单变量情况 131
462 多变量情况和黑塞矩阵 134
463 拟牛顿法 135
464 BFGS 和 L-BFGS 更新规则 138
注释与参考文献 139
第 5 章 前馈深度神经网络 142
51 通用全连接架构 142
511 基于函数组合的模型 144
512 仿射变换与激活函数 144
513 前向传播 145
514 具体维度示例 145
515 模型的标量视图 146
516 跨多个样本的向量化 146
517 模型训练概述 147
52 神经网络的表达力 148
521 简单函数逼近 148
522 通用逼近定理 149
523 隐层的优势 150
524 通过简单模型实现特定的函数 150
525 神经网络特征的聚焦性 152
526 深度增加带来的表达力提升 153
53 激活函数的选择 154
531 标量激活函数及其导数 154
532 非标量激活函数及其导数 156
54 反向传播算法 157
541 一般递归模型的反向传播 157
542 一个展开的示例 159
543 用 代替 ζ的反向传播算法 160
544 全连接网络的反向传播 161
545 整个小批量的反向传播 163
546 梯度消失和梯度爆炸 163
55 权重初始化 164
551 Xavier 初始化的推导 165
552 梯度消失或梯度爆炸值的进一步洞察 165
56 批量归一化 166
561 每单元归一化的思想 166
562 生产环境中的批量归一化 167
563 批量归一化参数的反向传播 168
57 用 dropout 和正则化缓解过拟合 169
571 dropout 169
572 将 dropout 视为集成的近似 171
573 添加正则化项和权重衰减 172
注释与参考文献 173
第 6 章 卷积神经网络 175
61 CNN 概述 175
611 滤波 176
612 VGG19 网络 177
62 卷积运算 178
621 线性时不变系统中的卷积 178
622 概率中的卷积 179
623 多项式乘法和卷积矩阵 180
624 多维推广 181
625 再谈边缘检测 183
63 构建卷积层 184
631 卷积层的动机 184
632 填充、步长和扩张 187
633 多通道输入 190
634 多通道输出 192
64 构建 CNN 193
641 卷积层 193
642 池化层 194
643 全连接层 195
644 VGG19 再探讨 196
645 1×1 卷积和全卷积网络 197
646 dropout、批量归一化和组归一化 198
647 理解内部层和派生特征 199
65 Inception、ResNet 和其他标志性架构 201
651 简要历史回顾 201
652 Inception 和网络中的网络 202
653 残差连接 203
654 EfficientNet 模型 204
66 超越分类 205
661 CNN 与关键计算机视觉任务 205
662 目标定位 207
663 人脸识别、孪生网络和三元组损失 208
注释与参考文献 210
第 7 章 序列模型 212
71 序列数据的模型和活动概述 212
711 序列数据的形式 213
712 涉及序列数据的任务 213
713 词嵌入 216
72 基本循环神经网络 217
721 一个简单的具体示例 220
722 用随时间反向传播训练 RNN 221
723 计算中的挑战 224
724 训练的其他方面 225
73 RNN 的扩展和改进 226
731 堆叠门和反转门 226
732 长短期记忆模型 227
733 门控循环单元模型 230
74 编码器-解码器和注意力机制 231
741 用于机器翻译的编码器-解码器架构 231
742 注意力机制 233
743 基于注意力机制的编码器-解码器 234
744 注意力权重的示例 235
745 打分函数的变体 236
746 训练编码器-解码器模型 237
75 Transformer 237
751 自注意力 238
752 多头自注意力 240
753 位置嵌入 241
754 Transformer 块 242
755 编码器-解码器框架 245
756 在生产和训练中使用编码器-解码器 247
注释与参考文献 249
第 8 章 特定架构与范式 251
81 生成式建模原理 251
811 变分自编码器 253
812 变分自编码器的编码器-解码器架构 255
813 与极大似然和 ELBO 的关系 256
814 损失函数的细节 257
815 重参数化技巧 258
82 扩散模型 259
821 层次变分自编码器 260
822 扩散模型假设 262
823 损失函数 263
824 重参数化技巧和损失简化 264
83 GAN 266
831 GAN 生成式建模方法 267
832 训练 GAN 268
833 最小化 JS 散度 269
834 目标函数的变体 270
835 超越 GAN 数据生成 275
84 强化学习 277
841 马尔可夫决策过程 278
842 贝尔曼方程、价值函数和 Q函数 281
843 贝尔曼方程的求解 282
844 Q 学习 283
845 深度强化学习 284
85 图神经网络 285
851 GNN 的应用 285
852 图结构 286
853 输入数据和任务的结构 289
854 GNN 模型的一般结构 290
855 消息传递方案 292
856 模型变体 293
注释与参考文献 296
附录 A 多元微积分初步 299
附录 B 交叉熵及其他对数期望 308
后记 311
《深度学习的数学工程:模型背后的数学原理》全书速览

结束语
人工智能行业高速发展的浪潮中,框架工具不断迭代、模型算法持续更新,但支撑深度学习发展的底层数学原理始终未曾改变。工具可以快速学习、代码可以模仿复用,但扎实的理论功底、看透问题本质的能力,才是技术人员长久立足行业的核心竞争力。很多人深陷 "调参内卷",耗费大量时间精力却难以实现技术突破,本质就是忽略了数学这一底层根基,始终徘徊在技术表层。深度学习的学习之路,从来不是一味追求代码数量与案例堆砌,而是循序渐进、由表及里的沉淀过程。读懂底层数学,你才能真正解锁深度学习的核心能力,既能熟练驾驭各类框架与模型完成工程开发,也能从容应对复杂场景下的技术优化与算法创新。