45-机器学习与大模型开发数学教程-4-7 特征函数与矩母函数

一句话版:
矩母函数 M X ( t ) = E [ e t X ] M_X(t)=\mathbb{E}[e^{tX}] MX(t)=E[etX] 用"指数增长"打包了所有矩(moments)
特征函数 φ X ( t ) = E [ e i t X ] \varphi_X(t)=\mathbb{E}[e^{i t X}] φX(t)=E[eitX] 是分布的傅里叶变换总存在 、能唯一确定分布 、对求和/卷积 特别好用。

在 ML 里,它们支撑:CLT 的证明、PCA/谱方法的频域直觉、随机傅里叶特征(RFF)近似核、快速求和分布/误差条等。


1. 为什么还要学"函数的函数"?

  • 你想知道所有矩 ( E [ X ] , E [ X 2 ] , ... \mathbb{E}[X],\mathbb{E}[X^2],\dots E[X],E[X2],...)?------看 M X ( t ) M_X(t) MX(t) 的导数就行。
  • 你要搞懂和的分布 S = X + Y S=X+Y S=X+Y?------看 φ S = φ X ⋅ φ Y \varphi_S=\varphi_X\cdot \varphi_Y φS=φX⋅φY(独立时),乘法替代卷积
  • 你想唯一确定一个分布 、甚至反推 pdf ?------ φ \varphi φ 可以,还是总存在的(有界、连续)。

类比:把"分布"看作一首音乐;特征函数 是它的频谱。频谱一给,旋律就定了。


2. 定义、存在性与两者关系

2.1 定义

  • 矩母函数(MGF) : M X ( t ) = E [ e t X ] M_X(t)=\mathbb{E}[e^{tX}] MX(t)=E[etX];有时只在 t t t 的一个邻域内存在。
  • 特征函数(CF) : φ X ( t ) = E [ e i t X ] \varphi_X(t)=\mathbb{E}[e^{i t X}] φX(t)=E[eitX];对所有 t ∈ R t\in\mathbb{R} t∈R 都存在 ( ∣ e i t X ∣ = 1 |e^{i t X}|=1 ∣eitX∣=1)。

2.2 关系

若 M X ( t ) M_X(t) MX(t) 在某点邻域内存在,则 解析延拓

M X ( t ) = φ X ( − i t ) , φ X ( t ) = M X ( i t ) . M_X(t)=\varphi_X(-i t),\qquad \varphi_X(t)=M_X(i t). MX(t)=φX(−it),φX(t)=MX(it).

但注意:厚尾分布(如 Cauchy)没有 MGF ,却有 CF

2.3 两个"母函数"的差别

  • MGF 适合"矩的封装与级数展开";
  • CF 适合"卷积变乘法、唯一确定、反演"。

3. 基本性质(务必牢记)

  • 归一化: φ X ( 0 ) = 1 \varphi_X(0)=1 φX(0)=1, ∣ φ X ( t ) ∣ ≤ 1 |\varphi_X(t)|\le 1 ∣φX(t)∣≤1。

  • 平移缩放:

    φ a X + b ( t ) = e i b t   φ X ( a t ) , M a X + b ( t ) = e b t M X ( a t ) . \varphi_{aX+b}(t)=e^{i b t}\,\varphi_X(a t),\quad M_{aX+b}(t)=e^{b t} M_X(a t). φaX+b(t)=eibtφX(at),MaX+b(t)=ebtMX(at).

  • 独立求和(关键):若 X , Y X,Y X,Y 独立,

    φ X + Y ( t ) = φ X ( t ) φ Y ( t ) , M X + Y ( t ) = M X ( t ) M Y ( t ) . \varphi_{X+Y}(t)=\varphi_X(t)\varphi_Y(t),\quad M_{X+Y}(t)=M_X(t)M_Y(t). φX+Y(t)=φX(t)φY(t),MX+Y(t)=MX(t)MY(t).

  • 矩来自导数(在 0 点的导数):

    M X ( k ) ( 0 ) = E [ X k ] , φ X ( k ) ( 0 ) = i k   E [ X k ] . M_X^{(k)}(0)=\mathbb{E}[X^k],\qquad \varphi_X^{(k)}(0)=i^k\,\mathbb{E}[X^k]. MX(k)(0)=E[Xk],φX(k)(0)=ikE[Xk].

  • 唯一性与反演 (直观版):不同分布不会有同一个 CF;在常见条件下可由 φ \varphi φ 反演回 pdf/pmf(傅里叶逆变换)。


4. 累积量与"加法友好": log ⁡ \log log 的魔法

  • 累积母函数(CGF) : K X ( t ) = log ⁡ M X ( t ) K_X(t)=\log M_X(t) KX(t)=logMX(t);
    K ( 1 ) ( 0 ) = μ K^{(1)}(0)=\mu K(1)(0)=μ(均值), K ( 2 ) ( 0 ) = σ 2 K^{(2)}(0)=\sigma^2 K(2)(0)=σ2(方差),更高导数给偏度、峰度的"累积量"。
  • 加法 :独立时 K X + Y ( t ) = K X ( t ) + K Y ( t ) K_{X+Y}(t)=K_X(t)+K_Y(t) KX+Y(t)=KX(t)+KY(t)。
    正态的 K ( t ) = μ t + σ 2 2 t 2 K(t)=\mu t+\frac{\sigma^2}{2}t^2 K(t)=μt+2σ2t2,高阶全为 0 ⇒ "二阶闭包"。

这正是 CLT 的频域直觉:很多小独立效应叠加时,高阶累积量被平均稀释,只剩二阶(高斯)。


5. 常见分布的一行式(背起来)

分布 MGF M X ( t ) M_X(t) MX(t)(存在域) CF φ X ( t ) \varphi_X(t) φX(t)
Bernoulli ( p p p) (1-p)+p,e\^{t} (1-p)+p,e\^{i t}
Binomial ( n , p n,p n,p) ( ( 1 − p ) + p e t ) n \big((1-p)+p e^t\big)^n ((1−p)+pet)n ( ( 1 − p ) + p e i t ) n \big((1-p)+p e^{i t}\big)^n ((1−p)+peit)n
Poisson ( λ \lambda λ) \\exp!\\big(\\lambda(e\^t-1)\\big) exp ⁡  ⁣ ( λ ( e i t − 1 ) ) \exp\!\big(\lambda(e^{i t}-1)\big) exp(λ(eit−1))
Normal ( μ , σ 2 \mu,\sigma^2 μ,σ2) \\exp(\\mu t+\\tfrac12\\sigma\^2 t\^2) exp ⁡ ( i μ t − 1 2 σ 2 t 2 ) \exp(i\mu t-\tfrac12\sigma^2 t^2) exp(iμt−21σ2t2)
Exponential (rate λ \lambda λ) \\frac{\\lambda}{\\lambda-t} ( ( (t\<\\lambda \\frac{\\lambda}{\\lambda-i t}
Laplace(0, b) \\frac{1}{1-b\^2 t\^2}(( t <1/b)) \\frac{1}{1+b\^2 t\^2}
Uniform ( a , b a,b a,b) e b t − e a t t ( b − a ) \frac{e^{bt}-e^{at}}{t(b-a)} t(b−a)ebt−eat( t ≠ 0 t\neq 0 t=0) e i b t − e i a t i t ( b − a ) \frac{e^{i b t}-e^{i a t}}{i t (b-a)} it(b−a)eibt−eiat
Cauchy (0, γ \gamma γ) 不存在 ( \exp(-\gamma t ))

6. 卷积变乘法:和的分布如何快算?

目标 :求 S = ∑ k = 1 n X k S=\sum_{k=1}^n X_k S=∑k=1nXk 的分布(独立)。

  • 频域:先算 φ S ( t ) = ∏ k φ X k ( t ) \varphi_S(t)=\prod_k \varphi_{X_k}(t) φS(t)=∏kφXk(t);
  • 再做傅里叶反演 回到时域(pmf/pdf)。
    这避免了多次卷积的"指数爆炸",可以用 FFT 高效实现。

已知各自分布 特征函数 φ_X(t) 乘起来 φ_S(t)=∏φ_X(t) 傅里叶反演/FFT 得到 S 的 pdf/pmf

说明:这条"频域链路"是图像处理里"卷积→频域相乘"的同款思路。

:若 X i ∼ Exp ( λ ) X_i\sim \text{Exp}(\lambda) Xi∼Exp(λ) 独立,则
φ S n ( t ) = ( λ λ − i t ) n \varphi_{S_n}(t)=\big(\frac{\lambda}{\lambda-i t}\big)^n φSn(t)=(λ−itλ)n ⇒ S n ∼ Gamma ( n , λ ) S_n\sim \text{Gamma}(n,\lambda) Sn∼Gamma(n,λ)。


7. CLT 的频域素描(为什么"近似高斯")

对 i.i.d. X i X_i Xi(均值 μ \mu μ、方差 σ 2 \sigma^2 σ2):

φ n ( X ˉ n − μ ) σ ( t ) = [ φ X  ⁣ ( t n σ )   e − i μ t n σ ] n ≈ [ 1 − t 2 2 n + o ( n − 1 ) ] n → e − t 2 / 2 . \varphi_{\frac{\sqrt{n}(\bar X_n-\mu)}{\sigma}}(t) =\Big[\varphi_X\!\big(\tfrac{t}{\sqrt{n}\sigma}\big)\,e^{-i\mu \frac{t}{\sqrt{n}\sigma}}\Big]^n \approx \big[1-\tfrac{t^2}{2n}+o(n^{-1})\big]^n \to e^{-t^2/2}. φσn (Xˉn−μ)(t)=[φX(n σt)e−iμn σt]n≈[1−2nt2+o(n−1)]n→e−t2/2.

右端是标准正态的 CF。于是得到 CLT:标准化的 X ˉ n \bar X_n Xˉn 分布趋近 N ( 0 , 1 ) \mathcal{N}(0,1) N(0,1)。


8. 在机器学习里的"指定位置"

  1. 随机傅里叶特征(RFF) (Bochner 定理)
    对平稳核 k ( x − y ) k(x-y) k(x−y),存在谱密度 p ( ω ) p(\omega) p(ω)(正的有限测度)使

k ( δ ) = ∫ e i ω ⊤ δ p ( ω )   d ω . k(\delta)=\int e^{i\omega^\top \delta} p(\omega)\,d\omega. k(δ)=∫eiω⊤δp(ω)dω.

用 ω ∼ p ( ω ) \omega\sim p(\omega) ω∼p(ω) 采样,构造 ϕ ( x ) = [ cos ⁡ ( ω ⊤ x ) , sin ⁡ ( ω ⊤ x ) ] \phi(x)=[\cos(\omega^\top x),\sin(\omega^\top x)] ϕ(x)=[cos(ω⊤x),sin(ω⊤x)] 近似核。

这其实在用分布的特征函数思想把核"频谱化"。

  1. 误差建模与求和

    多个独立噪声源叠加,直接乘 CF 求总误差的分布或尾概率;用于量化不确定性误差条

  2. 混合与复合分布

  • 混合: X ∼ ∑ π k P k X\sim \sum \pi_k P_k X∼∑πkPk ⇒ φ X = ∑ π k φ P k \varphi_X=\sum \pi_k \varphi_{P_k} φX=∑πkφPk。
  • 复合泊松:若 N ∼ Pois ( λ ) N\sim\text{Pois}(\lambda) N∼Pois(λ), S = ∑ i = 1 N Y i S=\sum_{i=1}^N Y_i S=∑i=1NYi,则
    M S ( t ) = exp ⁡ { λ ( M Y ( t ) − 1 ) } M_S(t)=\exp\{\lambda(M_Y(t)-1)\} MS(t)=exp{λ(MY(t)−1)},用于计数 × 单次损失的风控/保险建模。
  1. 谱方法与稳定分布
    当数据厚尾 时,MGF 不存在但 CF 可用;稳定分布(如 Cauchy)在特征函数下有简洁闭式。

9. 小型"手算局"(从 CF/ MGF 反推性质)

  • Poisson : M ( t ) = exp ⁡ ( λ ( e t − 1 ) ) M(t)=\exp(\lambda(e^t-1)) M(t)=exp(λ(et−1))。
    M ′ ( 0 ) = λ M'(0)=\lambda M′(0)=λ(均值), M ′ ′ ( 0 ) = λ + λ 2 M''(0)=\lambda+\lambda^2 M′′(0)=λ+λ2 ⇒ 方差 λ \lambda λ。
  • Normal : φ ( t ) = exp ⁡ ( i μ t − 1 2 σ 2 t 2 ) \varphi(t)=\exp(i\mu t-\tfrac12 \sigma^2 t^2) φ(t)=exp(iμt−21σ2t2) ⇒
    偏移与缩放在指数里线性叠加(高斯的"闭包性")。
  • Cauchy : φ ( t ) = e − ∣ t ∣ \varphi(t)=e^{-|t|} φ(t)=e−∣t∣(标准型)说明没有矩:导数在 0 不存在高阶有限值。

10. Python 迷你实验(NumPy):经验特征函数 & 频域求和

python 复制代码
import numpy as np

rng = np.random.default_rng(0)

# 1) 经验特征函数 vs 理论 (正态)
x = rng.normal(0.0, 1.0, size=50_000)
def ecf(t):  # empirical CF
    return np.mean(np.exp(1j * t * x))
ts = np.linspace(-10, 10, 201)
phi_emp = np.array([ecf(t) for t in ts])
phi_the = np.exp(-0.5 * ts**2)  # N(0,1) 的 CF

# 2) 和的分布 (两指数之和 = Gamma(k=2))
lam = 2.0
# 理论 CF
def phi_exp(t): return lam / (lam - 1j*t)
phi_sum = phi_exp(ts)**2
# 简易数值反演(离散傅里叶,示意)
# 选好 x 轴网格与频率步长 Δt,注意 2π 因子与窗函数(工程需要更细化)

工程提醒:数值反演需配对的网格/步长、窗函数、零填充以减小振铃;真实系统建议用专用库或自写稳健的 FFT 反演器。


11. 从"分布"到"频谱"再回去

flowchart TD D[分布 P_X] --> F["特征函数 φ_X(t)=E[e^{itX}]"] F --> P[性质: 唯一性/乘法/矩导数] P --> S[求和 φ_S=∏φ] S --> I["反演(FFT)→ pdf/pmf"]

说明:左去右是"打包与频谱化",右回左是"反演与解卷积"。


12. 常见误区(踩坑清单)

  1. 把 MGF 当作总存在:只有 CF 才总存在;MGF 可能发散(Cauchy、重尾)。
  2. 忘了独立性前提 : φ X + Y = φ X φ Y \varphi_{X+Y}=\varphi_X\varphi_Y φX+Y=φXφY 需 独立
  3. 在 0 点的导数就是矩 :没收敛就不能用(例如 Cauchy 没有二阶矩)。
  4. 数值反演随意用 FFT:网格、窗、带宽没配好会震荡(Gibbs/aliasing)。
  5. 把"特征核(characteristic kernel)"与"特征函数"混为一谈:前者是核方法里 MMD 的概念,和本文的 CF 不同。

13. 练习(含提示)

  1. Laplace 的 MGF/CF :从 pdf 推导 M ( t ) = 1 1 − b 2 t 2 M(t)=\frac{1}{1-b^2 t^2} M(t)=1−b2t21( ∣ t ∣ < 1 / b |t|<1/b ∣t∣<1/b)与 φ ( t ) = 1 1 + b 2 t 2 \varphi(t)=\frac{1}{1+b^2 t^2} φ(t)=1+b2t21。
  2. 和的分布(离散) : X ∼ Bern ( p ) X\sim\text{Bern}(p) X∼Bern(p), Y ∼ Bern ( q ) Y\sim\text{Bern}(q) Y∼Bern(q) 独立。用 CF 求 S = X + Y S=X+Y S=X+Y 的 pmf。
    提示 : φ S = ( 1 − p + p e i t ) ( 1 − q + q e i t ) \varphi_S=(1-p+pe^{it})(1-q+qe^{it}) φS=(1−p+peit)(1−q+qeit),展开后识别三点分布。
  3. 复合泊松 :若 N ∼ Pois ( λ ) N\sim\text{Pois}(\lambda) N∼Pois(λ), Y i Y_i Yi i.i.d.,证 M S ( t ) = exp ⁡ { λ ( M Y ( t ) − 1 ) } M_S(t)=\exp\{\lambda(M_Y(t)-1)\} MS(t)=exp{λ(MY(t)−1)}。
  4. CLT 频域证明 :补齐" ≈ \approx ≈"那步的泰勒展开与 o ( n − 1 ) o(n^{-1}) o(n−1) 论证。
  5. RFF 连接 :给定 RBF 核 k ( δ ) = exp ⁡ ( − ∥ δ ∥ 2 / 2 σ 2 ) k(\delta)=\exp(-\|\delta\|^2/2\sigma^2) k(δ)=exp(−∥δ∥2/2σ2),写出其谱密度 p ( ω ) p(\omega) p(ω) 并说明为何 ω ∼ N ( 0 , σ − 2 I ) \omega\sim\mathcal{N}(0,\sigma^{-2}I) ω∼N(0,σ−2I)。
  6. 数值反演实践:实现一份稳健的 CF→pdf 反演(带窗函数),验证"两指数和=Gamma(2,λ)"的曲线重合。

14. 小结

  • M X ( t ) M_X(t) MX(t) 与 φ X ( t ) \varphi_X(t) φX(t) 是描述分布的两把"瑞士军刀":前者擅长矩的打包与解析 ,后者擅长卷积→乘法、唯一性与反演
  • 频域视角不仅给出 CLT 的本质 ,还让我们在工程上快速求和分布、做核近似与误差计算
  • 牢记三件事:CF 总存在独立和变乘积导数给矩/累积量加性。把它们装进工具箱,很多"看起来难"的分布题会迎刃而解。
相关推荐
帅小柏2 小时前
SoraWatermarkCleaner 完整安装教程:Windows 与 Linux 双系统指南
人工智能·sora
新程记2 小时前
2026年AI证书选择困境:CAIE认证的市场认可与理性报考指南
人工智能
咕噜船长2 小时前
使用Qwen3-VL模型批量标注视频内容(视频理解)
人工智能·pytorch·深度学习·音视频·视频
禾高网络2 小时前
互联网医院定制|互联网医院|禾高互联网医院搭建
java·大数据·人工智能·小程序
鲨莎分不晴2 小时前
通信学习 (Learning to Communicate):从“心电感应”到“语言涌现”
人工智能·学习·机器学习
道法自然04022 小时前
[CARLA系列--05]如何在Carla中去调用传感器模型--Radar篇
人工智能·自动驾驶·ue4
roamingcode2 小时前
2025年技术变革浪潮:从 AI Agent 标准化到人类认知重构
人工智能·ai·重构·agent·skill·mcp
智驱力人工智能2 小时前
森林防火无人机火焰监测系统 构建“天空地”一体化智能防火体系 无人机火焰检测,支持红色火焰检测 城市高层建筑无人机火焰识别
人工智能·深度学习·opencv·算法·目标检测·无人机·边缘计算
Coovally AI模型快速验证2 小时前
无人机低空视觉数据集全景解读:从单机感知到具身智能的跨
人工智能·深度学习·目标检测·机器学习·自动驾驶·无人机