机器学习数学通关指南——微积分基本概念

前言

本文隶属于专栏《机器学习数学通关指南》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出，谢谢！

本专栏目录结构和参考文献请见《机器学习数学通关指南》

正文

函数

一、函数的定义与本质

映射关系 ：函数是 实数集到实数集的映射（或更一般地，非空数集到数集的映射）。
- 规范形式： f : D → R f: D \to \mathbb{R} f:D→R，其中 D ⊆ R D \subseteq \mathbb{R} D⊆R 为定义域， f ( D ) ⊆ R f(D) \subseteq \mathbb{R} f(D)⊆R 为值域。
- 核心要素：定义域 （ D D D）和 对应法则 （ f f f），两者共同决定函数的唯一性。若两函数定义域与对应法则相同，则视为同一函数。
变量依赖 ：自变量 x ∈ D x \in D x∈D 通过对应法则 f f f 唯一确定因变量 y = f ( x ) y = f(x) y=f(x)，形成依赖关系。

二、函数的表示与分类

表示方法
- 解析法 （公式法）：如 y = x 2 y = x^2 y=x2。
- 分段函数 ：不同定义域区间用不同表达式，如 f ( x ) = { x , x ≥ 0 − x , x < 0 f(x) = \begin{cases} x, & x \geq 0 \\ -x, & x < 0 \end{cases} f(x)={x,−x,x≥0x<0。
- 其他形式（隐函数等）：如方程 F ( x , y ) = 0 F(x,y) = 0 F(x,y)=0 隐含 y y y 与 x x x 的依赖关系。
特殊类型
- 反函数 ：若原函数为单射（不同输入对应不同输出），存在逆映射 f − 1 f^{-1} f−1，如 y = sin ⁡ x y = \sin x y=sinx 的反函数为 y = arcsin ⁡ x y = \arcsin x y=arcsinx。
- 满射：值域等于目标集合，如将单位圆周映射到区间 [ − 1 , 1 ] [-1,1] [−1,1]。

三、函数的特性

有界性
- 存在常数 K K K，使 ∣ f ( x ) ∣ ≤ K |f(x)| \leq K ∣f(x)∣≤K 对所有 x ∈ D x \in D x∈D 成立，则函数有界（如 y = sin ⁡ x y = \sin x y=sinx）。
单调性
- 单调递增 ： x 1 < x 2 ⇒ f ( x 1 ) ≤ f ( x 2 ) x_1 < x_2 \Rightarrow f(x_1) \leq f(x_2) x1<x2⇒f(x1)≤f(x2)。
- 严格单调递增 ： x 1 < x 2 ⇒ f ( x 1 ) < f ( x 2 ) x_1 < x_2 \Rightarrow f(x_1) < f(x_2) x1<x2⇒f(x1)<f(x2)（递减同理）。
奇偶性
- 奇函数 ： f ( − x ) = − f ( x ) f(-x) = -f(x) f(−x)=−f(x)，图形关于原点对称（如 y = x 3 y = x^3 y=x3）。
- 偶函数 ： f ( − x ) = f ( x ) f(-x) = f(x) f(−x)=f(x)，图形关于 y y y 轴对称（如 y = x 2 y = x^2 y=x2）。
周期性
- 存在最小正数 T T T（周期），使 f ( x + T ) = f ( x ) f(x + T) = f(x) f(x+T)=f(x) 恒成立，如 sin ⁡ x \sin x sinx 的周期为 2 π 2\pi 2π。

四、几何与数值意义

图形表示 ：函数 y = f ( x ) y = f(x) y=f(x) 的图像是坐标系中点的集合，直观反映定义域、值域及特性（如单调性）。
数值对应 ：对每个 x 0 ∈ D x_0 \in D x0∈D， f ( x 0 ) f(x_0) f(x0) 表示因变量在 x 0 x_0 x0 处的具体值（如 f ( 2 ) = 4 f(2) = 4 f(2)=4）。

五、示例与应用

例证1 ： f ( x ) = x 2 f(x) = x^2 f(x)=x2 的定义域为 R \mathbb{R} R，值域 [ 0 , + ∞ ) [0, +\infty) [0,+∞)，既非单射（如 y = 4 y=4 y=4 对应 x = 2 x=2 x=2 和 x = − 2 x=-2 x=−2）也非满射（值域不覆盖全体实数）。
函数构成分析 ：定义域、表达式或分段规则是判断函数是否相同的核心依据（如 f ( x ) = 1 f(x) = 1 f(x)=1 与 g ( x ) = x x g(x) = \frac{x}{x} g(x)=xx 因定义域不同而不同）。

综上，函数是数学中描述变量间严格依赖关系的工具，通过定义域、对应法则及特性揭示变量变化的规律。

极限

一、极限的定义与核心思想

本质
- 变量趋于某点时的趋势 ：描述自变量（如数列项数n、函数变量x）无限接近某一状态 （如n→∞、x→x₀）时，因变量（数列通项uₑ、函数值f(x)）稳定趋近的确定值。
- 几何意义：点的无限趋近行为（如数列点在数轴上向a聚集，函数图像在x→x₀时趋近水平直线y=A）。
严格数学定义（ε语言）
- 数列极限 ：∀ε>0，∃正整数N，当n>N时，|uₙ−A|<ε。意义：项数充分大时，数列项离A的距离任意小。
  示例：lim(1/n)=0，当n→∞时1/n无限接近0。
- 函数极限 ：
  - x→x₀ ：∀ε>0，∃δ>0，当0<|x−x₀|<δ时，|f(x)−A|<ε。
    示例：lim(x→2)(3x−6)=0，当x→2时3x−6是无穷小。
  - x→∞ ：∀ε>0，∃M>0，当|x|>M时，|f(x)−A|<ε。
    示例：lim(x→∞)(1/x)=0，x→∞时1/x是无穷小。

二、极限的存在性与判定

必要条件
- 单侧极限存在且相等 ：例如，f(x)在x₀处极限存在 ⇨ 左极限lim(x→x₀⁻)f(x) = 右极限lim(x→x₀⁺)f(x)。
  示例：分段函数f(x)=x−1（x<0），0（x=0），x+1（x>0），x→0时左右极限不相等⇒极限不存在。
存在性准则
- 夹逼准则 （准则I）：若g(x)≤f(x)≤h(x)且limg(x)=limh(x)=A⇒limf(x)=A。
  应用：证明lim(x→0)(sinx/x)=1，利用单位圆面积夹逼。
- 单调有界准则 （准则II）：单调递增（减）且有上（下）界的数列必收敛。
  应用：证明数列{ (1+1/n)ⁿ }收敛（自然对数底e的定义）。

三、极限的性质与运算

基本性质
- 唯一性：若极限存在，则唯一。
- 局部有界性：若lim(x→x₀)f(x)=A，则f(x)在x₀某去心邻域内有界。
- 保号性：若limf(x)=A>0，则在x₀某邻域内f(x)>0。
无穷小与无穷大
- 无穷小 ：极限为0的变量，如lim(x→0)(sinx)=x+o(x)。
  运算性质 ：
  - 有限个无穷小之和/积仍是无穷小。
  - 有界函数与无穷小乘积仍为无穷小。
- 无穷大 ：变量绝对值无限增大（非数），如lim(x→0)(1/x²)=∞。
  关系：若limf(x)=∞⇨lim(1/f(x))=0，反之未必成立。
运算规则
- 四则运算 ：若limf(x)=A，limg(x)=B，则：
  - lim[f(x)±g(x)]=A±B
  - lim[f(x)·g(x)]=A·B
  - lim[f(x)/g(x)]=A/B（B≠0）
- 复合运算：若limg(x)=u₀，limf(u)=A，则limf(g(x))=A。

四、重要极限及其应用

基本极限
- lim(x→0)(sinx/x)=1 ：用于求解含三角函数的0/0型极限。
  示例：lim(x→0)(tanx/x)=1·1=1（因tanx=sinx/cosx）。
- lim(x→∞)(1+1/x)ˣ=e ：用于指数、对数函数极限及连续复利模型。
  应用：lim(n→∞)(1+1/n)ⁿ=e，证明关键为数列单调递增且有上界。
泰勒展开与等价无穷小
- 近似替换 ：如x→0时，sinx∼x，1−cosx∼x²/2。
  注意：等价无穷小替换需乘除项适用，加减法谨慎使用。

五、实际背景与数学思想

起源
- 几何问题：如刘徽割圆术（用正多边形逼近圆面积），阿基米德求抛物线面积。
- 物理问题：瞬时速度（Δt→0时平均速度极限）、曲线切线斜率。
思想方法
- 无限逼近：通过有限步骤无限接近精确解，避免直接计算不可达值。
- 动静结合：变量动态变化中捕捉静态的极限值，如x→x₀时f(x)→A。

示例总结：

计算极限：lim(x→2)(3x−6)=0（直接代入法）。
判断存在性：lim(x→0)sin(1/x)不存在（震荡无界）。
重要应用：自然对数e=lim(n→∞)(1+1/n)ⁿ，源于连续复利模型。

通过对极限概念的深层理解，可掌握微积分核心工具，并为后续导数、积分等学习奠定基础。

连续性与导数

一、连续性的定义与理解

基本定义

函数 f ( x ) f(x) f(x) 在点 x 0 x_0 x0 处连续，需满足：
- 三点条件 ：
  1. f ( x ) f(x) f(x) 在 x 0 x_0 x0 有定义；
  2. lim ⁡ x → x 0 f ( x ) \lim_{x \to x_0} f(x) limx→x0f(x) 存在（包括左极限 lim ⁡ x → x 0 − f ( x ) \lim_{x \to x_0^-} f(x) limx→x0−f(x) 与右极限 lim ⁡ x → x 0 + f ( x ) \lim_{x \to x_0^+} f(x) limx→x0+f(x) 存在且相等）；
  3. 极限值等于函数值 ： lim ⁡ x → x 0 f ( x ) = f ( x 0 ) \lim_{x \to x_0} f(x) = f(x_0) limx→x0f(x)=f(x0).
几何意义 ：函数图像在 x 0 x_0 x0 处无间断、跳跃或无限发散。
举例分析

例如函数 f ( x ) = { x + 1 , x ≤ 0 sin ⁡ x x , x > 0 f(x) = \begin{cases} x + 1, & x \leq 0 \\ \frac{\sin x}{x}, & x > 0 \end{cases} f(x)={x+1,xsinx,x≤0x>0 在 x = 0 x = 0 x=0 处连续：
- 验证条件 ：
  - f ( 0 ) = 1 f(0) = 1 f(0)=1（在 x = 0 x=0 x=0 处有定义）；
  - 左极限 lim ⁡ x → 0 − ( x + 1 ) = 1 \lim_{x \to 0^-} (x + 1) = 1 limx→0−(x+1)=1，右极限 lim ⁡ x → 0 + sin ⁡ x x = 1 \lim_{x \to 0^+} \frac{\sin x}{x} = 1 limx→0+xsinx=1；
  - lim ⁡ x → 0 f ( x ) = 1 = f ( 0 ) \lim_{x \to 0} f(x) = 1 = f(0) limx→0f(x)=1=f(0)，故连续。
间断点分类
- 第一类间断点：左、右极限均存在但不相等（如跳跃型）或极限存在但不等于函数值（如可去型）。
- 第二类间断点：左、右极限至少一个不存在（如无穷型或振荡型）。
例： f ( x ) = x 2 − 1 x 2 − 3 x + 2 f(x) = \frac{x^2 - 1}{x^2 - 3x + 2} f(x)=x2−3x+2x2−1 在 x = 1 x=1 x=1 处为可去间断点（ lim ⁡ x → 1 f ( x ) = − 2 \lim_{x \to 1} f(x) = -2 limx→1f(x)=−2 但 f ( 1 ) f(1) f(1) 无定义），在 x = 2 x=2 x=2 处为第二类间断点（ lim ⁡ x → 2 f ( x ) = + ∞ \lim_{x \to 2} f(x) = +\infty limx→2f(x)=+∞）。

二、导数的定义与核心性质

导数本质

函数 f ( x ) f(x) f(x) 在 x 0 x_0 x0 处的导数描述其 瞬时变化率 ，定义为：
f ′ ( x 0 ) = lim ⁡ Δ x → 0 f ( x 0 + Δ x ) − f ( x 0 ) Δ x f'(x_0) = \lim_{\Delta x \to 0} \frac{f(x_0 + \Delta x) - f(x_0)}{\Delta x} f′(x0)=Δx→0limΔxf(x0+Δx)−f(x0)

或等价形式：
f ′ ( x 0 ) = lim ⁡ x → x 0 f ( x ) − f ( x 0 ) x − x 0 . f'(x_0) = \lim_{x \to x_0} \frac{f(x) - f(x_0)}{x - x_0}. f′(x0)=x→x0limx−x0f(x)−f(x0).

几何意义：切线的斜率。
可导与连续的关系
- 若可导，则必连续（导数存在的必要条件），但直线运动的位移连续不一定可导。
- 连续不一定可导 ：例如 f ( x ) = [ 2 ] ( @ r e f ) ∣ x ∣ f(x) = [2](@ref)|x| f(x)=[2](@ref)∣x∣ 在 x = 0 x = 0 x=0 处连续但不可导（左导数为 − 1 -1 −1，右导数为 1 1 1）。
导数计算规则
- 四则运算法则：加减、乘法、除法规则。
- 链式法则 （复合函数求导）：
  d y d x = d y d u ⋅ d u d x . \frac{dy}{dx} = \frac{dy}{du} \cdot \frac{du}{dx}. dxdy=dudy⋅dxdu.
- 隐函数求导 ：对方程 F ( x , y ) = 0 F(x, y) = 0 F(x,y)=0 两边同时关于 x x x 求导。
例：隐函数 ln ⁡ x 2 + y 2 = arctan ⁡ y x \ln \sqrt{x^2 + y^2} = \arctan \frac{y}{x} lnx2+y2 =arctanxy 求导时需应用复合函数链式法则。

三、连续性与导数的核心联系

方向导数与单侧连续
- 导数存在需 左右导数均存在且相等，而连续性只需左右极限存在且等于函数值。
- 例如 f ( x ) = x 3 f(x) = \sqrt[3]{x} f(x)=3x 在 x = 0 x=0 x=0 处连续但不可导（左右导数为无穷大）。
应用场景
- 在优化问题（如AI训练）中，目标函数需连续以定义导数的方向，进而通过梯度优化求解最小值。

四、总结

连续性是研究函数行为的基础，确保函数未发生"断裂"；
导数刻画变化的动态特性，是优化算法（如梯度下降）的核心工具；
重要关系：可导 ⇒ 连续，但连续 ⇏ 可导。

示例图示：

f ( x ) = ∣ x ∣ f(x) = |x| f(x)=∣x∣ 在原点连续但不可导（V形尖点）；
分段函数在分段点的连续性需左右极限验证。

偏导数

偏导数可以用"只动一个变量"的方式来理解。想象你同时调整空调的温度和风速------偏导数就是问：当只调温度时，房间降温速度多少？（风速不变），或者只调风速时降温速度多少？（温度不变）。

举个具体例子：

假设你的电费 z = 3 x + 2 y z = 3x + 2y z=3x+2y，其中：
- x x x 是每小时开空调的时间
- y y y 是每小时开灯的时间

✦ 对x的偏导数 （只动空调时间）：

保持开灯时间 y y y 不变，电费随空调变化的速率是 3 元/小时

（每多开1小时空调，电费增加3元）

✦ 对y的偏导数 （只动开灯时间）：

保持空调时间 x x x 不变，电费随灯光变化的速率是 2 元/小时

（每多开1小时灯，电费增加2元）

翻译成数学：

∂ z ∂ x = 3 \frac{\partial z}{\partial x} = 3 ∂x∂z=3（单纯空调的影响）
∂ z ∂ y = 2 \frac{\partial z}{\partial y} = 2 ∂y∂z=2（单纯灯光的影响）

核心要点 ：

1️⃣ 隔离变量 ：同时用多个变量控制现象时，单独观察某一个的影响

2️⃣ 建模常用 ：物理中分析摩擦力、工程中优化成本、机器学习中调节参数都依赖这种"逐个分析变量"的方法

3️⃣ 几何意义：三维曲面在某一个坐标轴方向的倾斜程度（比如山的东-西坡度，忽略南北变化）

方向导数

方向导数的简单解释：

想象你站在山坡上的某一点，山坡高度由数学函数描述。方向导数 就是当你朝着特定方向 （比如正东、东北或任意斜方向）移动时，海拔的瞬时变化率。它告诉你在那个方向上山坡有多陡。

举个日常例子：

空调和电灯每小时的电费是 z = 3x + 2y \（( x：空调时间， y y y：开灯时间）。
偏导数好比"只调空调时间"或"只调灯光时间"时电费的变化速度（比如多开1小时空调，电费多3元）。
方向导数 则是当你同时调整两个时间 （比如空调多开0.8小时，灯光多开0.6小时）时，电费的变化速度。此时的变化率是：
方向导数 = 3 × 0.8 + 2 × 0.6 = 3.6 元/小时 [ 2 ] ( @ r e f ) \text{方向导数} = 3 \times 0.8 + 2 \times 0.6 = 3.6 \, \text{元/小时}[2](@ref) 方向导数=3×0.8+2×0.6=3.6元/小时[2](@ref)
其中， 0.8 0.8 0.8 和 0.6 0.6 0.6 是方向的单位分量。

关键点：

与坡度的关系：方向导数越大，沿该方向移动越"陡峭"。
梯度是方向导数的最大值方向，指向最陡上升方向。
偏导数是特例：比如沿纯东或纯北方向的方向导数就是对应的偏导数。

一句话总结：方向导数描述函数在某一方向的"陡峭程度"，是梯度在该方向上的投影。

梯度

梯度的简单解释：

想象你在爬山时，想找到上升最快的路径 。梯度就像指南针指向最陡的上坡方向 ，并且告诉你这个方向的坡度有多陡。数学中，梯度是偏导数的组合，帮你分析多变量函数在各个方向的变化。

举个日常例子：

电费公式是 z = 3 x + 2 y z = 3x + 2y z=3x+2y（ x x x y y y:开灯时间）。
梯度就是 ( 3 , 2 ) (3, 2) (3,2)，表示同时调空调和灯光时，电费增长最快的方向 ------每多开1小时空调 3 + 2 = 5 3+2=5 3+2=5 元（实际需换算为方向）。

数学定义 ：

对函数 f ( x , y ) f(x, y) f(x,y)，梯度写作：
grad f = ( ∂ f ∂ x , ∂ f ∂ y ) \text{grad}f = \left( \frac{\partial f}{\partial x}, \frac{\partial f}{\partial y} \right) gradf=(∂x∂f,∂y∂f)

例如， f = x 2 + y 2 f = x^2 + y^2 f=x2+y2 的梯度是 ( 2 x , 2 y ) (2x, 2y) (2x,2y)，在点 ( 1 , 1 ) (1,1) (1,1) 处梯度为 ( 2 , 2 ) (2, 2) (2,2)，指向右上方，坡度大小为 2 2 + 2 2 = 2 2 \sqrt{2^2 + 2^2} = 2\sqrt{2} 22+22 =22 。

关键点 ：

1️⃣ 方向最陡 ：梯度方向是函数值增长最快的方向，反方向下降最快。

2️⃣ 垂直于等高线 ：比如地图上的等高线，梯度指向垂直于等高线的方向（如图，山顶向外的箭头）。

3️⃣ 多远都适用 ：三元函数 f ( x , y , z ) f(x, y, z) f(x,y,z) 的梯度是 ( f x , f y , f z ) (f_x, f_y, f_z) (fx,fy,fz)，指向空间中最速上升方向。

一句话总结：梯度是多变量函数的"方向导数最大值指示器"，既告诉方向又告诉坡度。

原函数

原函数的简单解释：

原函数就像"导数反过来"------如果一个函数的导数等于原来的函数，它就是原函数。

通俗地说，你可以把它理解成**"积分后的函数"**。它有一个关键作用：帮你轻松算面积（定积分）。

举个例子：

已知车速随时间变化的函数是 v ( t ) v(t) v(t)，那么路程的函数 s ( t ) s(t) s(t) 就是 v ( t ) v(t) v(t) 的原函数。因为速度的导数 是加速度，而路程的导数就是速度。
牛顿---莱布尼茨公式 说：计算车速 v ( t ) v(t) v(t) 在时间 [ a , b ] [a, b] [a,b] 内让你跑的总路程，只需用原函数 s ( t ) s(t) s(t) 在终点 b b b 和起点 a a a 的差，即 s ( b ) − s ( a ) s(b) - s(a) s(b)−s(a)。

数学核心：

若 F ′ ( x ) = f ( x ) F'(x) = f(x) F′(x)=f(x)，则称 F ( x ) F(x) F(x) 是 f ( x ) f(x) f(x) 的原函数。
作用：原函数可以把复杂的积分计算转换成简单的减法（如例题中 f ( x ) = sin ⁡ ( x ) x f(x) = \frac{\sin(x)}{x} f(x)=xsin(x) 的积分）。

一句话总结：原函数是导数的"逆运算"，是积分难题的快速解法钥匙。