1.1 AI 开发中的数学基础
本章涉及三个数学领域,先了解它们各自的定位:
线性代数:研究向量、矩阵和线性变换的数学分支。在 AI 中,神经网络的每一层计算本质上是矩阵乘法;Embedding 向量是线性代数的直接应用。
概率论与统计:研究随机现象规律的数学分支。LLM 的输出本质上是词汇表上的概率分布;Temperature 参数控制的就是采样概率。
微积分(梯度):研究变化率的数学分支。神经网络训练的核心------梯度下降------就是微积分在优化问题上的应用。
这三个领域在 AI 中的地位:
| 数学领域 | 在 AI 中的作用 | 应用开发者需要掌握的程度 |
|---|---|---|
| 线性代数 | 神经网络计算、Embedding 表示 | 理解向量和矩阵乘法的直觉即可 |
| 概率论 | LLM 输出原理、贝叶斯方法 | 理解概率分布和条件概率 |
| 微积分 | 模型训练(梯度下降) | 理解"梯度=方向"的直觉即可 |
先说结论
做Agent应用开发:几乎不需要数学。
你需要的是:会用API(Application Programming Interface,应用程序接口,即调用LLM服务的标准方式)、懂Prompt工程、能写Python。数学不是门槛。
做AI工程师(训练/微调模型):需要一些数学。
不是大学数学那种深度,而是"能看懂论文、能理解算法原理"的程度。
学习路径提示 :如果你走的是路径A(Agent应用开发),可以跳过本章,直接从第6章LLM基础开始。本章是**路径B(完整AI工程师)**的必读内容。如果时间有限,建议至少读一遍第01篇和第02篇,对后续理解有帮助。
数学在AI中的实际作用
很多初学者会问:我不懂数学,能学AI吗?
能。但懂数学让你能理解为什么 ,而不只是知道怎么用。
具体来说,数学在AI中扮演三个角色:
第一,描述模型。线性代数告诉你神经网络的每一层在做什么(矩阵乘法);概率论告诉你LLM的输出本质上是什么(词汇表上的概率分布)。
第二,指导训练。微积分和梯度下降告诉你模型是怎么"学习"的------不是魔法,而是在高维空间里沿着损失函数的下坡方向一步步走。
第三,解释行为。为什么Temperature参数会影响输出多样性?为什么LLM会产生幻觉?这些问题的答案都在概率论里。
不懂数学,你可以用AI工具。懂了数学,你能真正理解它。
本章内容
| 文章 | 解决什么问题 | 阅读时间 |
|---|---|---|
| 01.线性代数直觉理解 | 向量、矩阵是什么?Embedding为什么是向量? | 约15分钟 |
| 02.微积分与梯度下降 | 模型训练时"学习"的数学原理是什么? | 约15分钟 |
| 03.概率论基础 | 为什么LLM输出是"概率分布"?Temperature是什么? | 约12分钟 |
| 04.优化理论入门 | 损失函数和梯度下降的实际应用,过拟合是什么 | 约10分钟 |
学习原则
- 理解直觉,不背公式:知道"是什么"和"为什么"比会计算更重要
- 结合代码学:每个概念都有对应的NumPy(Python科学计算的基础库,提供高效的数组运算)/PyTorch(Meta开发的深度学习框架)代码
- 够用就好:这不是数学教材,是"AI开发者的最少必要数学"
推荐学习顺序
数学基础 → 第4章传统机器学习 → 第5章深度学习基础
这三章构成完整的"AI技术栈"认知。如果你是路径A学员,可以在第11章RAG或第12章Agent遇到不懂的数学概念时,再回来这里查阅。