一句话版:
矩母函数 M X ( t ) = E [ e t X ] M_X(t)=\mathbb{E}[e^{tX}] MX(t)=E[etX] 用"指数增长"打包了所有矩(moments) ;
特征函数 φ X ( t ) = E [ e i t X ] \varphi_X(t)=\mathbb{E}[e^{i t X}] φX(t)=E[eitX] 是分布的傅里叶变换 ,总存在 、能唯一确定分布 、对求和/卷积 特别好用。
在 ML 里,它们支撑:CLT 的证明、PCA/谱方法的频域直觉、随机傅里叶特征(RFF)近似核、快速求和分布/误差条等。
1. 为什么还要学"函数的函数"?
- 你想知道所有矩 ( E [ X ] , E [ X 2 ] , ... \mathbb{E}[X],\mathbb{E}[X^2],\dots E[X],E[X2],...)?------看 M X ( t ) M_X(t) MX(t) 的导数就行。
- 你要搞懂和的分布 S = X + Y S=X+Y S=X+Y?------看 φ S = φ X ⋅ φ Y \varphi_S=\varphi_X\cdot \varphi_Y φS=φX⋅φY(独立时),乘法替代卷积。
- 你想唯一确定一个分布 、甚至反推 pdf ?------ φ \varphi φ 可以,还是总存在的(有界、连续)。
类比:把"分布"看作一首音乐;特征函数 是它的频谱。频谱一给,旋律就定了。
2. 定义、存在性与两者关系
2.1 定义
- 矩母函数(MGF) : M X ( t ) = E [ e t X ] M_X(t)=\mathbb{E}[e^{tX}] MX(t)=E[etX];有时只在 t t t 的一个邻域内存在。
- 特征函数(CF) : φ X ( t ) = E [ e i t X ] \varphi_X(t)=\mathbb{E}[e^{i t X}] φX(t)=E[eitX];对所有 t ∈ R t\in\mathbb{R} t∈R 都存在 ( ∣ e i t X ∣ = 1 |e^{i t X}|=1 ∣eitX∣=1)。
2.2 关系
若 M X ( t ) M_X(t) MX(t) 在某点邻域内存在,则 解析延拓有
M X ( t ) = φ X ( − i t ) , φ X ( t ) = M X ( i t ) . M_X(t)=\varphi_X(-i t),\qquad \varphi_X(t)=M_X(i t). MX(t)=φX(−it),φX(t)=MX(it).
但注意:厚尾分布(如 Cauchy)没有 MGF ,却有 CF。
2.3 两个"母函数"的差别
- MGF 适合"矩的封装与级数展开";
- CF 适合"卷积变乘法、唯一确定、反演"。
3. 基本性质(务必牢记)
-
归一化: φ X ( 0 ) = 1 \varphi_X(0)=1 φX(0)=1, ∣ φ X ( t ) ∣ ≤ 1 |\varphi_X(t)|\le 1 ∣φX(t)∣≤1。
-
平移缩放:
φ a X + b ( t ) = e i b t φ X ( a t ) , M a X + b ( t ) = e b t M X ( a t ) . \varphi_{aX+b}(t)=e^{i b t}\,\varphi_X(a t),\quad M_{aX+b}(t)=e^{b t} M_X(a t). φaX+b(t)=eibtφX(at),MaX+b(t)=ebtMX(at).
-
独立求和(关键):若 X , Y X,Y X,Y 独立,
φ X + Y ( t ) = φ X ( t ) φ Y ( t ) , M X + Y ( t ) = M X ( t ) M Y ( t ) . \varphi_{X+Y}(t)=\varphi_X(t)\varphi_Y(t),\quad M_{X+Y}(t)=M_X(t)M_Y(t). φX+Y(t)=φX(t)φY(t),MX+Y(t)=MX(t)MY(t).
-
矩来自导数(在 0 点的导数):
M X ( k ) ( 0 ) = E [ X k ] , φ X ( k ) ( 0 ) = i k E [ X k ] . M_X^{(k)}(0)=\mathbb{E}[X^k],\qquad \varphi_X^{(k)}(0)=i^k\,\mathbb{E}[X^k]. MX(k)(0)=E[Xk],φX(k)(0)=ikE[Xk].
-
唯一性与反演 (直观版):不同分布不会有同一个 CF;在常见条件下可由 φ \varphi φ 反演回 pdf/pmf(傅里叶逆变换)。
4. 累积量与"加法友好": log \log log 的魔法
- 累积母函数(CGF) : K X ( t ) = log M X ( t ) K_X(t)=\log M_X(t) KX(t)=logMX(t);
K ( 1 ) ( 0 ) = μ K^{(1)}(0)=\mu K(1)(0)=μ(均值), K ( 2 ) ( 0 ) = σ 2 K^{(2)}(0)=\sigma^2 K(2)(0)=σ2(方差),更高导数给偏度、峰度的"累积量"。 - 加法 :独立时 K X + Y ( t ) = K X ( t ) + K Y ( t ) K_{X+Y}(t)=K_X(t)+K_Y(t) KX+Y(t)=KX(t)+KY(t)。
正态的 K ( t ) = μ t + σ 2 2 t 2 K(t)=\mu t+\frac{\sigma^2}{2}t^2 K(t)=μt+2σ2t2,高阶全为 0 ⇒ "二阶闭包"。
这正是 CLT 的频域直觉:很多小独立效应叠加时,高阶累积量被平均稀释,只剩二阶(高斯)。
5. 常见分布的一行式(背起来)
| 分布 | MGF M X ( t ) M_X(t) MX(t)(存在域) | CF φ X ( t ) \varphi_X(t) φX(t) | ||
|---|---|---|---|---|
| Bernoulli ( p p p) | (1-p)+p,e\^{t} | (1-p)+p,e\^{i t} | ||
| Binomial ( n , p n,p n,p) | ( ( 1 − p ) + p e t ) n \big((1-p)+p e^t\big)^n ((1−p)+pet)n | ( ( 1 − p ) + p e i t ) n \big((1-p)+p e^{i t}\big)^n ((1−p)+peit)n | ||
| Poisson ( λ \lambda λ) | \\exp!\\big(\\lambda(e\^t-1)\\big) | exp ( λ ( e i t − 1 ) ) \exp\!\big(\lambda(e^{i t}-1)\big) exp(λ(eit−1)) | ||
| Normal ( μ , σ 2 \mu,\sigma^2 μ,σ2) | \\exp(\\mu t+\\tfrac12\\sigma\^2 t\^2) | exp ( i μ t − 1 2 σ 2 t 2 ) \exp(i\mu t-\tfrac12\sigma^2 t^2) exp(iμt−21σ2t2) | ||
| Exponential (rate λ \lambda λ) | \\frac{\\lambda}{\\lambda-t} ( ( (t\<\\lambda) | \\frac{\\lambda}{\\lambda-i t} | ||
| Laplace(0, b) | \\frac{1}{1-b\^2 t\^2}(( | t | <1/b)) | \\frac{1}{1+b\^2 t\^2} |
| Uniform ( a , b a,b a,b) | e b t − e a t t ( b − a ) \frac{e^{bt}-e^{at}}{t(b-a)} t(b−a)ebt−eat( t ≠ 0 t\neq 0 t=0) | e i b t − e i a t i t ( b − a ) \frac{e^{i b t}-e^{i a t}}{i t (b-a)} it(b−a)eibt−eiat | ||
| Cauchy (0, γ \gamma γ) | 不存在 | ( \exp(-\gamma | t | )) |
6. 卷积变乘法:和的分布如何快算?
目标 :求 S = ∑ k = 1 n X k S=\sum_{k=1}^n X_k S=∑k=1nXk 的分布(独立)。
- 频域:先算 φ S ( t ) = ∏ k φ X k ( t ) \varphi_S(t)=\prod_k \varphi_{X_k}(t) φS(t)=∏kφXk(t);
- 再做傅里叶反演 回到时域(pmf/pdf)。
这避免了多次卷积的"指数爆炸",可以用 FFT 高效实现。
已知各自分布 特征函数 φ_X(t) 乘起来 φ_S(t)=∏φ_X(t) 傅里叶反演/FFT 得到 S 的 pdf/pmf
说明:这条"频域链路"是图像处理里"卷积→频域相乘"的同款思路。
例 :若 X i ∼ Exp ( λ ) X_i\sim \text{Exp}(\lambda) Xi∼Exp(λ) 独立,则
φ S n ( t ) = ( λ λ − i t ) n \varphi_{S_n}(t)=\big(\frac{\lambda}{\lambda-i t}\big)^n φSn(t)=(λ−itλ)n ⇒ S n ∼ Gamma ( n , λ ) S_n\sim \text{Gamma}(n,\lambda) Sn∼Gamma(n,λ)。
7. CLT 的频域素描(为什么"近似高斯")
对 i.i.d. X i X_i Xi(均值 μ \mu μ、方差 σ 2 \sigma^2 σ2):
φ n ( X ˉ n − μ ) σ ( t ) = [ φ X ( t n σ ) e − i μ t n σ ] n ≈ [ 1 − t 2 2 n + o ( n − 1 ) ] n → e − t 2 / 2 . \varphi_{\frac{\sqrt{n}(\bar X_n-\mu)}{\sigma}}(t) =\Big[\varphi_X\!\big(\tfrac{t}{\sqrt{n}\sigma}\big)\,e^{-i\mu \frac{t}{\sqrt{n}\sigma}}\Big]^n \approx \big[1-\tfrac{t^2}{2n}+o(n^{-1})\big]^n \to e^{-t^2/2}. φσn (Xˉn−μ)(t)=[φX(n σt)e−iμn σt]n≈[1−2nt2+o(n−1)]n→e−t2/2.
右端是标准正态的 CF。于是得到 CLT:标准化的 X ˉ n \bar X_n Xˉn 分布趋近 N ( 0 , 1 ) \mathcal{N}(0,1) N(0,1)。
8. 在机器学习里的"指定位置"
- 随机傅里叶特征(RFF) (Bochner 定理)
对平稳核 k ( x − y ) k(x-y) k(x−y),存在谱密度 p ( ω ) p(\omega) p(ω)(正的有限测度)使
k ( δ ) = ∫ e i ω ⊤ δ p ( ω ) d ω . k(\delta)=\int e^{i\omega^\top \delta} p(\omega)\,d\omega. k(δ)=∫eiω⊤δp(ω)dω.
用 ω ∼ p ( ω ) \omega\sim p(\omega) ω∼p(ω) 采样,构造 ϕ ( x ) = [ cos ( ω ⊤ x ) , sin ( ω ⊤ x ) ] \phi(x)=[\cos(\omega^\top x),\sin(\omega^\top x)] ϕ(x)=[cos(ω⊤x),sin(ω⊤x)] 近似核。
这其实在用分布的特征函数思想把核"频谱化"。
-
误差建模与求和
多个独立噪声源叠加,直接乘 CF 求总误差的分布或尾概率;用于量化不确定性 、误差条。
-
混合与复合分布
- 混合: X ∼ ∑ π k P k X\sim \sum \pi_k P_k X∼∑πkPk ⇒ φ X = ∑ π k φ P k \varphi_X=\sum \pi_k \varphi_{P_k} φX=∑πkφPk。
- 复合泊松:若 N ∼ Pois ( λ ) N\sim\text{Pois}(\lambda) N∼Pois(λ), S = ∑ i = 1 N Y i S=\sum_{i=1}^N Y_i S=∑i=1NYi,则
M S ( t ) = exp { λ ( M Y ( t ) − 1 ) } M_S(t)=\exp\{\lambda(M_Y(t)-1)\} MS(t)=exp{λ(MY(t)−1)},用于计数 × 单次损失的风控/保险建模。
- 谱方法与稳定分布
当数据厚尾 时,MGF 不存在但 CF 可用;稳定分布(如 Cauchy)在特征函数下有简洁闭式。
9. 小型"手算局"(从 CF/ MGF 反推性质)
- Poisson : M ( t ) = exp ( λ ( e t − 1 ) ) M(t)=\exp(\lambda(e^t-1)) M(t)=exp(λ(et−1))。
M ′ ( 0 ) = λ M'(0)=\lambda M′(0)=λ(均值), M ′ ′ ( 0 ) = λ + λ 2 M''(0)=\lambda+\lambda^2 M′′(0)=λ+λ2 ⇒ 方差 λ \lambda λ。 - Normal : φ ( t ) = exp ( i μ t − 1 2 σ 2 t 2 ) \varphi(t)=\exp(i\mu t-\tfrac12 \sigma^2 t^2) φ(t)=exp(iμt−21σ2t2) ⇒
偏移与缩放在指数里线性叠加(高斯的"闭包性")。 - Cauchy : φ ( t ) = e − ∣ t ∣ \varphi(t)=e^{-|t|} φ(t)=e−∣t∣(标准型)说明没有矩:导数在 0 不存在高阶有限值。
10. Python 迷你实验(NumPy):经验特征函数 & 频域求和
python
import numpy as np
rng = np.random.default_rng(0)
# 1) 经验特征函数 vs 理论 (正态)
x = rng.normal(0.0, 1.0, size=50_000)
def ecf(t): # empirical CF
return np.mean(np.exp(1j * t * x))
ts = np.linspace(-10, 10, 201)
phi_emp = np.array([ecf(t) for t in ts])
phi_the = np.exp(-0.5 * ts**2) # N(0,1) 的 CF
# 2) 和的分布 (两指数之和 = Gamma(k=2))
lam = 2.0
# 理论 CF
def phi_exp(t): return lam / (lam - 1j*t)
phi_sum = phi_exp(ts)**2
# 简易数值反演(离散傅里叶,示意)
# 选好 x 轴网格与频率步长 Δt,注意 2π 因子与窗函数(工程需要更细化)
工程提醒:数值反演需配对的网格/步长、窗函数、零填充以减小振铃;真实系统建议用专用库或自写稳健的 FFT 反演器。
11. 从"分布"到"频谱"再回去
说明:左去右是"打包与频谱化",右回左是"反演与解卷积"。
12. 常见误区(踩坑清单)
- 把 MGF 当作总存在:只有 CF 才总存在;MGF 可能发散(Cauchy、重尾)。
- 忘了独立性前提 : φ X + Y = φ X φ Y \varphi_{X+Y}=\varphi_X\varphi_Y φX+Y=φXφY 需 独立。
- 在 0 点的导数就是矩 :没收敛就不能用(例如 Cauchy 没有二阶矩)。
- 数值反演随意用 FFT:网格、窗、带宽没配好会震荡(Gibbs/aliasing)。
- 把"特征核(characteristic kernel)"与"特征函数"混为一谈:前者是核方法里 MMD 的概念,和本文的 CF 不同。
13. 练习(含提示)
- Laplace 的 MGF/CF :从 pdf 推导 M ( t ) = 1 1 − b 2 t 2 M(t)=\frac{1}{1-b^2 t^2} M(t)=1−b2t21( ∣ t ∣ < 1 / b |t|<1/b ∣t∣<1/b)与 φ ( t ) = 1 1 + b 2 t 2 \varphi(t)=\frac{1}{1+b^2 t^2} φ(t)=1+b2t21。
- 和的分布(离散) : X ∼ Bern ( p ) X\sim\text{Bern}(p) X∼Bern(p), Y ∼ Bern ( q ) Y\sim\text{Bern}(q) Y∼Bern(q) 独立。用 CF 求 S = X + Y S=X+Y S=X+Y 的 pmf。
提示 : φ S = ( 1 − p + p e i t ) ( 1 − q + q e i t ) \varphi_S=(1-p+pe^{it})(1-q+qe^{it}) φS=(1−p+peit)(1−q+qeit),展开后识别三点分布。 - 复合泊松 :若 N ∼ Pois ( λ ) N\sim\text{Pois}(\lambda) N∼Pois(λ), Y i Y_i Yi i.i.d.,证 M S ( t ) = exp { λ ( M Y ( t ) − 1 ) } M_S(t)=\exp\{\lambda(M_Y(t)-1)\} MS(t)=exp{λ(MY(t)−1)}。
- CLT 频域证明 :补齐" ≈ \approx ≈"那步的泰勒展开与 o ( n − 1 ) o(n^{-1}) o(n−1) 论证。
- RFF 连接 :给定 RBF 核 k ( δ ) = exp ( − ∥ δ ∥ 2 / 2 σ 2 ) k(\delta)=\exp(-\|\delta\|^2/2\sigma^2) k(δ)=exp(−∥δ∥2/2σ2),写出其谱密度 p ( ω ) p(\omega) p(ω) 并说明为何 ω ∼ N ( 0 , σ − 2 I ) \omega\sim\mathcal{N}(0,\sigma^{-2}I) ω∼N(0,σ−2I)。
- 数值反演实践:实现一份稳健的 CF→pdf 反演(带窗函数),验证"两指数和=Gamma(2,λ)"的曲线重合。
14. 小结
- M X ( t ) M_X(t) MX(t) 与 φ X ( t ) \varphi_X(t) φX(t) 是描述分布的两把"瑞士军刀":前者擅长矩的打包与解析 ,后者擅长卷积→乘法、唯一性与反演。
- 频域视角不仅给出 CLT 的本质 ,还让我们在工程上快速求和分布、做核近似与误差计算。
- 牢记三件事:CF 总存在 、独立和变乘积 、导数给矩/累积量加性。把它们装进工具箱,很多"看起来难"的分布题会迎刃而解。