45-机器学习与大模型开发数学教程-4-7 特征函数与矩母函数

一句话版：
矩母函数 M X ( t ) = E [ e t X ] M_X(t)=\mathbb{E}[e^{tX}] MX(t)=E[etX] 用"指数增长"打包了所有矩（moments） ；
特征函数 φ X ( t ) = E [ e i t X ] \varphi_X(t)=\mathbb{E}[e^{i t X}] φX(t)=E[eitX] 是分布的傅里叶变换 ，总存在 、能唯一确定分布 、对求和/卷积 特别好用。

在 ML 里，它们支撑：CLT 的证明、PCA/谱方法的频域直觉、随机傅里叶特征（RFF）近似核、快速求和分布/误差条等。

1. 为什么还要学"函数的函数"？

你想知道所有矩 （ E [ X ] , E [ X 2 ] , ... \mathbb{E}[X],\mathbb{E}[X^2],\dots E[X],E[X2],...）？------看 M X ( t ) M_X(t) MX(t) 的导数就行。
你要搞懂和的分布 S = X + Y S=X+Y S=X+Y？------看 φ S = φ X ⋅ φ Y \varphi_S=\varphi_X\cdot \varphi_Y φS=φX⋅φY（独立时），乘法替代卷积。
你想唯一确定一个分布 、甚至反推 pdf ？------ φ \varphi φ 可以，还是总存在的（有界、连续）。

类比：把"分布"看作一首音乐；特征函数 是它的频谱。频谱一给，旋律就定了。

2. 定义、存在性与两者关系

2.1 定义

矩母函数（MGF） ： M X ( t ) = E [ e t X ] M_X(t)=\mathbb{E}[e^{tX}] MX(t)=E[etX]；有时只在 t t t 的一个邻域内存在。
特征函数（CF） ： φ X ( t ) = E [ e i t X ] \varphi_X(t)=\mathbb{E}[e^{i t X}] φX(t)=E[eitX]；对所有 t ∈ R t\in\mathbb{R} t∈R 都存在 （ ∣ e i t X ∣ = 1 |e^{i t X}|=1 ∣eitX∣=1）。

2.2 关系

若 M X ( t ) M_X(t) MX(t) 在某点邻域内存在，则 解析延拓有

M X ( t ) = φ X ( − i t ) , φ X ( t ) = M X ( i t ) . M_X(t)=\varphi_X(-i t),\qquad \varphi_X(t)=M_X(i t). MX(t)=φX(−it),φX(t)=MX(it).

但注意：厚尾分布（如 Cauchy）没有 MGF ，却有 CF。

2.3 两个"母函数"的差别

MGF 适合"矩的封装与级数展开"；
CF 适合"卷积变乘法、唯一确定、反演"。

3. 基本性质（务必牢记）

归一化： φ X ( 0 ) = 1 \varphi_X(0)=1 φX(0)=1， ∣ φ X ( t ) ∣ ≤ 1 |\varphi_X(t)|\le 1 ∣φX(t)∣≤1。
平移缩放：

φ a X + b ( t ) = e i b t φ X ( a t ) , M a X + b ( t ) = e b t M X ( a t ) . \varphi_{aX+b}(t)=e^{i b t}\,\varphi_X(a t),\quad M_{aX+b}(t)=e^{b t} M_X(a t). φaX+b(t)=eibtφX(at),MaX+b(t)=ebtMX(at).
独立求和（关键）：若 X , Y X,Y X,Y 独立，

φ X + Y ( t ) = φ X ( t ) φ Y ( t ) , M X + Y ( t ) = M X ( t ) M Y ( t ) . \varphi_{X+Y}(t)=\varphi_X(t)\varphi_Y(t),\quad M_{X+Y}(t)=M_X(t)M_Y(t). φX+Y(t)=φX(t)φY(t),MX+Y(t)=MX(t)MY(t).
矩来自导数（在 0 点的导数）：

M X ( k ) ( 0 ) = E [ X k ] , φ X ( k ) ( 0 ) = i k E [ X k ] . M_X^{(k)}(0)=\mathbb{E}[X^k],\qquad \varphi_X^{(k)}(0)=i^k\,\mathbb{E}[X^k]. MX(k)(0)=E[Xk],φX(k)(0)=ikE[Xk].
唯一性与反演 （直观版）：不同分布不会有同一个 CF；在常见条件下可由 φ \varphi φ 反演回 pdf/pmf（傅里叶逆变换）。

4. 累积量与"加法友好"： log ⁡ \log log 的魔法

累积母函数（CGF） ： K X ( t ) = log ⁡ M X ( t ) K_X(t)=\log M_X(t) KX(t)=logMX(t)；
K ( 1 ) ( 0 ) = μ K^{(1)}(0)=\mu K(1)(0)=μ（均值）， K ( 2 ) ( 0 ) = σ 2 K^{(2)}(0)=\sigma^2 K(2)(0)=σ2（方差），更高导数给偏度、峰度的"累积量"。
加法：独立时 K X + Y ( t ) = K X ( t ) + K Y ( t ) K_{X+Y}(t)=K_X(t)+K_Y(t) KX+Y(t)=KX(t)+KY(t)。
正态的 K ( t ) = μ t + σ 2 2 t 2 K(t)=\mu t+\frac{\sigma^2}{2}t^2 K(t)=μt+2σ2t2，高阶全为 0 ⇒ "二阶闭包"。

这正是 CLT 的频域直觉：很多小独立效应叠加时，高阶累积量被平均稀释，只剩二阶（高斯）。

5. 常见分布的一行式（背起来）

分布	MGF M X ( t ) M_X(t) MX(t)（存在域）	CF φ X ( t ) \varphi_X(t) φX(t)
Bernoulli ( p p p)	$(1-p)+p,e\^{t}$	$(1-p)+p,e\^{i t}$
Binomial ( n , p n,p n,p)	( ( 1 − p ) + p e t ) n \big((1-p)+p e^t\big)^n ((1−p)+pet)n	( ( 1 − p ) + p e i t ) n \big((1-p)+p e^{i t}\big)^n ((1−p)+peit)n
Poisson ( λ \lambda λ)	$\\exp!\\big(\\lambda(e\^t-1)\\big)$	exp ⁡ ⁣ ( λ ( e i t − 1 ) ) \exp\!\big(\lambda(e^{i t}-1)\big) exp(λ(eit−1))
Normal ( μ , σ 2 \mu,\sigma^2 μ,σ2)	$\\exp(\\mu t+\\tfrac12\\sigma\^2 t\^2)$	exp ⁡ ( i μ t − 1 2 σ 2 t 2 ) \exp(i\mu t-\tfrac12\sigma^2 t^2) exp(iμt−21σ2t2)
Exponential (rate λ \lambda λ)	$\\frac{\\lambda}{\\lambda-t} （（（t\<\\lambda$ ）	$\\frac{\\lambda}{\\lambda-i t}$
Laplace(0, b)	$\\frac{1}{1-b\^2 t\^2}$ （(	t	<1/b)）	$\\frac{1}{1+b\^2 t\^2}$
Uniform ( a , b a,b a,b)	e b t − e a t t ( b − a ) \frac{e^{bt}-e^{at}}{t(b-a)} t(b−a)ebt−eat（ t ≠ 0 t\neq 0 t=0）	e i b t − e i a t i t ( b − a ) \frac{e^{i b t}-e^{i a t}}{i t (b-a)} it(b−a)eibt−eiat
Cauchy (0, γ \gamma γ)	不存在	( \exp(-\gamma	t	))

6. 卷积变乘法：和的分布如何快算？

目标：求 S = ∑ k = 1 n X k S=\sum_{k=1}^n X_k S=∑k=1nXk 的分布（独立）。

频域：先算 φ S ( t ) = ∏ k φ X k ( t ) \varphi_S(t)=\prod_k \varphi_{X_k}(t) φS(t)=∏kφXk(t)；
再做傅里叶反演 回到时域（pmf/pdf）。
这避免了多次卷积的"指数爆炸"，可以用 FFT 高效实现。

已知各自分布特征函数 φ_X(t) 乘起来 φ_S(t)=∏φ_X(t) 傅里叶反演/FFT 得到 S 的 pdf/pmf

说明：这条"频域链路"是图像处理里"卷积→频域相乘"的同款思路。

例：若 X i ∼ Exp ( λ ) X_i\sim \text{Exp}(\lambda) Xi∼Exp(λ) 独立，则
φ S n ( t ) = ( λ λ − i t ) n \varphi_{S_n}(t)=\big(\frac{\lambda}{\lambda-i t}\big)^n φSn(t)=(λ−itλ)n ⇒ S n ∼ Gamma ( n , λ ) S_n\sim \text{Gamma}(n,\lambda) Sn∼Gamma(n,λ)。

7. CLT 的频域素描（为什么"近似高斯"）

对 i.i.d. X i X_i Xi（均值 μ \mu μ、方差 σ 2 \sigma^2 σ2）：

φ n ( X ˉ n − μ ) σ ( t ) = [ φ X ⁣ ( t n σ ) e − i μ t n σ ] n ≈ [ 1 − t 2 2 n + o ( n − 1 ) ] n → e − t 2 / 2 . \varphi_{\frac{\sqrt{n}(\bar X_n-\mu)}{\sigma}}(t) =\Big[\varphi_X\!\big(\tfrac{t}{\sqrt{n}\sigma}\big)\,e^{-i\mu \frac{t}{\sqrt{n}\sigma}}\Big]^n \approx \big[1-\tfrac{t^2}{2n}+o(n^{-1})\big]^n \to e^{-t^2/2}. φσn (Xˉn−μ)(t)=[φX(n σt)e−iμn σt]n≈[1−2nt2+o(n−1)]n→e−t2/2.

右端是标准正态的 CF。于是得到 CLT：标准化的 X ˉ n \bar X_n Xˉn 分布趋近 N ( 0 , 1 ) \mathcal{N}(0,1) N(0,1)。

8. 在机器学习里的"指定位置"

随机傅里叶特征（RFF） （Bochner 定理）
对平稳核 k ( x − y ) k(x-y) k(x−y)，存在谱密度 p ( ω ) p(\omega) p(ω)（正的有限测度）使

k ( δ ) = ∫ e i ω ⊤ δ p ( ω ) d ω . k(\delta)=\int e^{i\omega^\top \delta} p(\omega)\,d\omega. k(δ)=∫eiω⊤δp(ω)dω.

用 ω ∼ p ( ω ) \omega\sim p(\omega) ω∼p(ω) 采样，构造 ϕ ( x ) = [ cos ⁡ ( ω ⊤ x ) , sin ⁡ ( ω ⊤ x ) ] \phi(x)=[\cos(\omega^\top x),\sin(\omega^\top x)] ϕ(x)=[cos(ω⊤x),sin(ω⊤x)] 近似核。

这其实在用分布的特征函数思想把核"频谱化"。

误差建模与求和

多个独立噪声源叠加，直接乘 CF 求总误差的分布或尾概率；用于量化不确定性 、误差条。
混合与复合分布

混合： X ∼ ∑ π k P k X\sim \sum \pi_k P_k X∼∑πkPk ⇒ φ X = ∑ π k φ P k \varphi_X=\sum \pi_k \varphi_{P_k} φX=∑πkφPk。
复合泊松：若 N ∼ Pois ( λ ) N\sim\text{Pois}(\lambda) N∼Pois(λ)， S = ∑ i = 1 N Y i S=\sum_{i=1}^N Y_i S=∑i=1NYi，则
M S ( t ) = exp ⁡ { λ ( M Y ( t ) − 1 ) } M_S(t)=\exp\{\lambda(M_Y(t)-1)\} MS(t)=exp{λ(MY(t)−1)}，用于计数 × 单次损失的风控/保险建模。

谱方法与稳定分布
当数据厚尾时，MGF 不存在但 CF 可用；稳定分布（如 Cauchy）在特征函数下有简洁闭式。

9. 小型"手算局"（从 CF/ MGF 反推性质）

Poisson ： M ( t ) = exp ⁡ ( λ ( e t − 1 ) ) M(t)=\exp(\lambda(e^t-1)) M(t)=exp(λ(et−1))。
M ′ ( 0 ) = λ M'(0)=\lambda M′(0)=λ（均值）， M ′ ′ ( 0 ) = λ + λ 2 M''(0)=\lambda+\lambda^2 M′′(0)=λ+λ2 ⇒ 方差 λ \lambda λ。
Normal ： φ ( t ) = exp ⁡ ( i μ t − 1 2 σ 2 t 2 ) \varphi(t)=\exp(i\mu t-\tfrac12 \sigma^2 t^2) φ(t)=exp(iμt−21σ2t2) ⇒
偏移与缩放在指数里线性叠加（高斯的"闭包性"）。
Cauchy ： φ ( t ) = e − ∣ t ∣ \varphi(t)=e^{-|t|} φ(t)=e−∣t∣（标准型）说明没有矩：导数在 0 不存在高阶有限值。

10. Python 迷你实验（NumPy）：经验特征函数 & 频域求和

python 复制代码

import numpy as np

rng = np.random.default_rng(0)

# 1) 经验特征函数 vs 理论 (正态)
x = rng.normal(0.0, 1.0, size=50_000)
def ecf(t):  # empirical CF
    return np.mean(np.exp(1j * t * x))
ts = np.linspace(-10, 10, 201)
phi_emp = np.array([ecf(t) for t in ts])
phi_the = np.exp(-0.5 * ts**2)  # N(0,1) 的 CF

# 2) 和的分布 (两指数之和 = Gamma(k=2))
lam = 2.0
# 理论 CF
def phi_exp(t): return lam / (lam - 1j*t)
phi_sum = phi_exp(ts)**2
# 简易数值反演（离散傅里叶，示意）
# 选好 x 轴网格与频率步长 Δt，注意 2π 因子与窗函数（工程需要更细化）

工程提醒：数值反演需配对的网格/步长、窗函数、零填充以减小振铃；真实系统建议用专用库或自写稳健的 FFT 反演器。

11. 从"分布"到"频谱"再回去

flowchart TD D[分布 P_X] --> F["特征函数 φ_X(t)=E[e^{itX}]"] F --> P[性质: 唯一性/乘法/矩导数] P --> S[求和 φ_S=∏φ] S --> I["反演(FFT)→ pdf/pmf"]

说明：左去右是"打包与频谱化"，右回左是"反演与解卷积"。

12. 常见误区（踩坑清单）

把 MGF 当作总存在：只有 CF 才总存在；MGF 可能发散（Cauchy、重尾）。
忘了独立性前提 ： φ X + Y = φ X φ Y \varphi_{X+Y}=\varphi_X\varphi_Y φX+Y=φXφY 需独立。
在 0 点的导数就是矩 ：没收敛就不能用（例如 Cauchy 没有二阶矩）。
数值反演随意用 FFT：网格、窗、带宽没配好会震荡（Gibbs/aliasing）。
把"特征核（characteristic kernel）"与"特征函数"混为一谈：前者是核方法里 MMD 的概念，和本文的 CF 不同。

13. 练习（含提示）

Laplace 的 MGF/CF ：从 pdf 推导 M ( t ) = 1 1 − b 2 t 2 M(t)=\frac{1}{1-b^2 t^2} M(t)=1−b2t21（ ∣ t ∣ < 1 / b |t|<1/b ∣t∣<1/b）与 φ ( t ) = 1 1 + b 2 t 2 \varphi(t)=\frac{1}{1+b^2 t^2} φ(t)=1+b2t21。
和的分布（离散） ： X ∼ Bern ( p ) X\sim\text{Bern}(p) X∼Bern(p), Y ∼ Bern ( q ) Y\sim\text{Bern}(q) Y∼Bern(q) 独立。用 CF 求 S = X + Y S=X+Y S=X+Y 的 pmf。
提示： φ S = ( 1 − p + p e i t ) ( 1 − q + q e i t ) \varphi_S=(1-p+pe^{it})(1-q+qe^{it}) φS=(1−p+peit)(1−q+qeit)，展开后识别三点分布。
复合泊松 ：若 N ∼ Pois ( λ ) N\sim\text{Pois}(\lambda) N∼Pois(λ), Y i Y_i Yi i.i.d.，证 M S ( t ) = exp ⁡ { λ ( M Y ( t ) − 1 ) } M_S(t)=\exp\{\lambda(M_Y(t)-1)\} MS(t)=exp{λ(MY(t)−1)}。
CLT 频域证明 ：补齐" ≈ \approx ≈"那步的泰勒展开与 o ( n − 1 ) o(n^{-1}) o(n−1) 论证。
RFF 连接 ：给定 RBF 核 k ( δ ) = exp ⁡ ( − ∥ δ ∥ 2 / 2 σ 2 ) k(\delta)=\exp(-\|\delta\|^2/2\sigma^2) k(δ)=exp(−∥δ∥2/2σ2)，写出其谱密度 p ( ω ) p(\omega) p(ω) 并说明为何 ω ∼ N ( 0 , σ − 2 I ) \omega\sim\mathcal{N}(0,\sigma^{-2}I) ω∼N(0,σ−2I)。
数值反演实践：实现一份稳健的 CF→pdf 反演（带窗函数），验证"两指数和=Gamma(2,λ)"的曲线重合。

14. 小结

M X ( t ) M_X(t) MX(t) 与 φ X ( t ) \varphi_X(t) φX(t) 是描述分布的两把"瑞士军刀"：前者擅长矩的打包与解析 ，后者擅长卷积→乘法、唯一性与反演。
频域视角不仅给出 CLT 的本质 ，还让我们在工程上快速求和分布、做核近似与误差计算。
牢记三件事：CF 总存在 、独立和变乘积 、导数给矩/累积量加性。把它们装进工具箱，很多"看起来难"的分布题会迎刃而解。