11-机器学习与大模型开发数学教程-第1章1-3 极限与连续性

在数学史上，牛顿和莱布尼茨在研究"变化率"时，发现一个问题：如果直接用"瞬时变化"来定义速度，公式会出问题。于是，他们引入了 极限（limit） 的思想。

在机器学习中，我们也经常遇到类似的问题：

换句话说，极限是所有连续变化的起点。

我们先来看一个生活类比：

这就是极限思想：不一定真的等于某个值，而是无限接近某个值。

数学上，如果函数 f(x)f(x)f(x) 在 xxx 趋近于某个点 aaa 时，也越来越接近某个数 LLL，那么就记作：

lim⁡x→af(x)=L\lim_{x \to a} f(x) = Llimx→af(x)=L

比如：

lim⁡x→0sin⁡xx=1\lim_{x \to 0} \frac{\sin x}{x} = 1limx→0xsinx=1

极限思想直接引出了函数的"连续性"。

直观理解：

形式化地说：

函数 f(x)f(x)f(x) 在点 aaa 处连续，当且仅当：

lim⁡x→af(x)=f(a)\lim_{x \to a} f(x) = f(a)limx→af(x)=f(a)

不等于极限存在等于函数值函数在该点连续函数不连续

说明：

损失函数的连续性
- 在训练中，我们最关心的是损失函数（Loss Function）。
- 如果损失函数是连续的，那么模型参数的微小变化，只会带来损失的微小变化，这样优化才"平滑可控"。
- 如果损失函数不连续，那么优化会"卡壳"，梯度下降也无从谈起。
例子：
- 均方误差（MSE） 是连续的 → 很适合梯度下降。
- 0-1 损失函数（预测错了记 1，否则 0）是不连续的 → 无法直接用梯度优化。
- 这也是为什么深度学习里常用"交叉熵损失"替代"0-1 损失"。
激活函数的连续性
- Sigmoid、Tanh、ReLU 等激活函数，之所以能被广泛使用，关键是它们连续（甚至分段连续）。
- 如果激活函数不连续，神经网络的输出会跳跃，导致训练不稳定。
大模型训练的稳定性
- 在大规模模型（如 Transformer）中，优化器（Adam、AdaGrad 等）依赖于连续可导的损失函数。
- 一旦损失函数出现不连续点，参数更新可能会"震荡"，无法收敛。

在上一节 O(n) 表示法 中，我们研究了算法在大输入规模下的表现。

其实，大 O 表示法就是在用极限思想：

lim⁡n→∞f(n)g(n)=C\lim_{n \to \infty} \frac{f(n)}{g(n)} = Climn→∞g(n)f(n)=C

这说明：复杂度分析和极限的数学基础是一脉相承的。