一、问题形式化:扩散模型的采样效率瓶颈
1.1 前向扩散过程的数学刻画
给定数据分布 q(x0)q(\mathbf{x}_0)q(x0),扩散模型通过TTT步马尔可夫链逐步注入高斯噪声 :
q(xt∣xt−1)=N(xt;1−βtxt−1,βtI) q(\mathbf{x}t | \mathbf{x}{t-1}) = \mathcal{N}(\mathbf{x}t; \sqrt{1-\beta_t}\mathbf{x}{t-1}, \beta_t\mathbf{I}) q(xt∣xt−1)=N(xt;1−βt xt−1,βtI)
其中 {βt}t=1T\{\beta_t\}_{t=1}^T{βt}t=1T 为预设的噪声方差调度。通过重参数化,任意时刻 ttt 的边际分布可解析表示为 :
q(xt∣x0)=N(xt;αˉtx0,(1−αˉt)I) q(\mathbf{x}_t | \mathbf{x}_0) = \mathcal{N}(\mathbf{x}_t; \sqrt{\bar{\alpha}_t}\mathbf{x}_0, (1-\bar{\alpha}_t)\mathbf{I}) q(xt∣x0)=N(xt;αˉt x0,(1−αˉt)I)
其中 αˉt=∏s=1t(1−βs)\bar{\alpha}t = \prod{s=1}^t (1-\beta_s)αˉt=∏s=1t(1−βs)。
1.2 反向去噪过程的计算复杂度
标准DDPM的反向过程需迭代执行 :
xt−1=1αt(xt−1−αt1−αˉtϵθ(xt,t))+σtzt \mathbf{x}_{t-1} = \frac{1}{\sqrt{\alpha_t}}\left(\mathbf{x}_t - \frac{1-\alpha_t}{\sqrt{1-\bar{\alpha}t}}\boldsymbol{\epsilon}\theta(\mathbf{x}_t, t)\right) + \sigma_t\mathbf{z}_t xt−1=αt 1(xt−1−αˉt 1−αtϵθ(xt,t))+σtzt
该过程需要数百至数千次神经网络前向传播(NFE, Number of Function Evaluations)。例如,ImageNet 256×256生成通常需要1000步,单次采样耗时数分钟,严重制约实际应用部署 。
1.3 快速采样的理论目标
设原始采样器为 Sfull\mathcal{S}{\text{full}}Sfull 需 TTT 步,快速采样器 Sfast\mathcal{S}{\text{fast}}Sfast 需 K≪TK \ll TK≪T 步,优化目标为 :
minSfastDmetric(qSfast(x0),qdata(x0))s.t.NFE(Sfast)≤K \min_{\mathcal{S}{\text{fast}}} D{\text{metric}}\left(q_{\mathcal{S}_{\text{fast}}}(\mathbf{x}0), q{\text{data}}(\mathbf{x}0)\right) \quad \text{s.t.} \quad \text{NFE}(\mathcal{S}{\text{fast}}) \leq K SfastminDmetric(qSfast(x0),qdata(x0))s.t.NFE(Sfast)≤K
其中 DmetricD_{\text{metric}}Dmetric 为分布距离度量(如FID、IS、Wasserstein距离)。
二、常微分方程求解器:确定性采样的数值加速
2.1 概率流ODE的理论基础
Song et al. 证明扩散模型存在对应的概率流常微分方程(Probability Flow ODE) :
dxt=[−12β(t)xt−β(t)∇xtlogpt(xt)]dt d\mathbf{x}_t = \left[-\frac{1}{2}\beta(t)\mathbf{x}t - \beta(t)\nabla{\mathbf{x}_t}\log p_t(\mathbf{x}_t)\right]dt dxt=[−21β(t)xt−β(t)∇xtlogpt(xt)]dt
该ODE与SDE共享相同的边际分布 pt(xt)p_t(\mathbf{x}_t)pt(xt),但生成确定性轨迹,允许使用高阶数值方法。
2.2 DDIM:隐式概率模型的半解析求解
DDIM(Denoising Diffusion Implicit Models)将反向过程推广为非马尔可夫形式 。设 σt∈[0,(1−αˉt−1)/(1−αˉt)1−αˉt/αˉt−1]\sigma_t \in [0, \sqrt{(1-\bar{\alpha}_{t-1})/(1-\bar{\alpha}_t)}\sqrt{1-\bar{\alpha}t/\bar{\alpha}{t-1}}]σt∈[0,(1−αˉt−1)/(1−αˉt) 1−αˉt/αˉt−1 ],采样公式为 :
xt−1=αˉt−1(xt−1−αˉtϵθ(xt,t)αˉt)⏟预测 x^0+1−αˉt−1−σt2⋅ϵθ(xt,t)+σtzt \mathbf{x}{t-1} = \sqrt{\bar{\alpha}{t-1}}\underbrace{\left(\frac{\mathbf{x}_t - \sqrt{1-\bar{\alpha}t}\boldsymbol{\epsilon}\theta(\mathbf{x}t,t)}{\sqrt{\bar{\alpha}t}}\right)}{\text{预测 }\hat{\mathbf{x}}0} + \sqrt{1-\bar{\alpha}{t-1}-\sigma_t^2}\cdot\boldsymbol{\epsilon}\theta(\mathbf{x}_t,t) + \sigma_t\mathbf{z}_t xt−1=αˉt−1 预测 x^0 (αˉt xt−1−αˉt ϵθ(xt,t))+1−αˉt−1−σt2 ⋅ϵθ(xt,t)+σtzt
关键性质 :当 σt=0\sigma_t = 0σt=0 时,过程完全确定性,可用大步长跳跃。设步长为 sss,则:
xt−s=αˉt−sx^0+1−αˉt−sϵθ(xt,t) \mathbf{x}{t-s} = \sqrt{\bar{\alpha}{t-s}}\hat{\mathbf{x}}0 + \sqrt{1-\bar{\alpha}{t-s}}\boldsymbol{\epsilon}_\theta(\mathbf{x}_t,t) xt−s=αˉt−s x^0+1−αˉt−s ϵθ(xt,t)
实现10-50步快速采样,FID劣化可控 。
2.3 高阶ODE求解器:DPM-Solver系列
Lu et al. 提出DPM-Solver,利用扩散ODE的特殊结构(指数积分形式)设计高阶方法 :
一阶形式(DPM-Solver-1) :
xti−1=αti−1αtixti−σti−1(ehi−1)ϵθ(xti,ti) \mathbf{x}{t{i-1}} = \frac{\alpha_{t_{i-1}}}{\alpha_{t_i}}\mathbf{x}{t_i} - \sigma{t_{i-1}}\left(e^{h_i}-1\right)\boldsymbol{\epsilon}\theta(\mathbf{x}{t_i}, t_i) xti−1=αtiαti−1xti−σti−1(ehi−1)ϵθ(xti,ti)
其中 hi=λti−1−λtih_i = \lambda_{t_{i-1}} - \lambda_{t_i}hi=λti−1−λti,λt=log(αt/σt)\lambda_t = \log(\alpha_t/\sigma_t)λt=log(αt/σt) 为对数信噪比。
二阶形式(DPM-Solver-2) :
xti−1=αti−1αtixti−σti−1(ehi−1)ϵθ(xti,ti)−σti−1(ehi−1−hi)hi(ϵθ(xti,ti)−ϵθ(xti+1,ti+1)) \mathbf{x}{t{i-1}} = \frac{\alpha_{t_{i-1}}}{\alpha_{t_i}}\mathbf{x}{t_i} - \sigma{t_{i-1}}\left(e^{h_i}-1\right)\boldsymbol{\epsilon}\theta(\mathbf{x}{t_i}, t_i) - \frac{\sigma_{t_{i-1}}(e^{h_i}-1-h_i)}{h_i}\left(\boldsymbol{\epsilon}\theta(\mathbf{x}{t_i}, t_i) - \boldsymbol{\epsilon}\theta(\mathbf{x}{t_{i+1}}, t_{i+1})\right) xti−1=αtiαti−1xti−σti−1(ehi−1)ϵθ(xti,ti)−hiσti−1(ehi−1−hi)(ϵθ(xti,ti)−ϵθ(xti+1,ti+1))
理论保证 :在足够光滑假设下,kkk阶DPM-Solver具有O(hk+1)O(h^{k+1})O(hk+1)局部截断误差,10-20步即可达到传统方法1000步质量 。
三、知识蒸馏:从多步迭代到单步映射
3.1 渐进式蒸馏:递归步数减半
Salimans & Ho 提出的渐进蒸馏(Progressive Distillation) 是知识蒸馏路线的奠基工作。
蒸馏目标 :训练学生模型 fθf_\thetafθ 使其单步输出匹配教师模型 gϕg_\phigϕ 的 2k2k2k 步输出:
LPD=Et,xt[∥fθ(xt,t,t−k)−Solver(gϕ,xt,t,t−2k)∥2] \mathcal{L}{\text{PD}} = \mathbb{E}{t,\mathbf{x}t}\left[\left\|f\theta(\mathbf{x}t, t, t-k) - \text{Solver}(g\phi, \mathbf{x}_t, t, t-2k)\right\|^2\right] LPD=Et,xt[∥fθ(xt,t,t−k)−Solver(gϕ,xt,t,t−2k)∥2]
其中 Solver(gϕ,⋅)\text{Solver}(g_\phi, \cdot)Solver(gϕ,⋅) 表示用教师模型执行2k2k2k步数值求解。
递归应用 :
T→蒸馏T/2→蒸馏T/4→蒸馏⋯→蒸馏4 T \xrightarrow{\text{蒸馏}} T/2 \xrightarrow{\text{蒸馏}} T/4 \xrightarrow{\text{蒸馏}} \cdots \xrightarrow{\text{蒸馏}} 4 T蒸馏 T/2蒸馏 T/4蒸馏 ⋯蒸馏 4
理论分析 :设教师每步误差为 ϵ\epsilonϵ,学生单步逼近误差为 δ\deltaδ,则KKK步递归后累积误差为 O(Kδ+ϵteacher)O(K\delta + \epsilon_{\text{teacher}})O(Kδ+ϵteacher)。实验表明,CIFAR-10上FID=3.0仅需4步,ImageNet 64×64上FID=7.1仅需8步 。
3.2 一致性模型:直接学习一致性函数
Song et al. 提出一致性模型(Consistency Models, CM) ,直接学习一致性函数 fθ:(xt,t)↦xϵf_\theta: (\mathbf{x}t, t) \mapsto \mathbf{x}\epsilonfθ:(xt,t)↦xϵ,将任意时刻的噪声样本映射到数据空间:
定义(一致性) :对于同一概率流ODE轨迹上的任意点 (xt,t)(\mathbf{x}t, t)(xt,t) 和 (xt′,t′)(\mathbf{x}{t'}, t')(xt′,t′),满足:
fθ(xt,t)=fθ(xt′,t′)=xϵ f_\theta(\mathbf{x}t, t) = f\theta(\mathbf{x}{t'}, t') = \mathbf{x}\epsilon fθ(xt,t)=fθ(xt′,t′)=xϵ
训练目标(一致性损失) :
LCM=Ex,t,t′,n[λ(t)⋅d(fθ(xt,t),fθ−(x~t′,t′))] \mathcal{L}{\text{CM}} = \mathbb{E}{\mathbf{x}, t, t', \mathbf{n}}\left[\lambda(t)\cdot d\left(f_\theta(\mathbf{x}t, t), f{\theta^-}(\tilde{\mathbf{x}}_{t'}, t')\right)\right] LCM=Ex,t,t′,n[λ(t)⋅d(fθ(xt,t),fθ−(x~t′,t′))]
其中:
- xt,xt′\mathbf{x}t, \mathbf{x}{t'}xt,xt′ 为同一轨迹上的两点
- fθ−f_{\theta^-}fθ− 为目标网络 (EMA更新:θ−←μθ−+(1−μ)θ\theta^- \leftarrow \mu\theta^- + (1-\mu)\thetaθ−←μθ−+(1−μ)θ)
- x~t′\tilde{\mathbf{x}}{t'}x~t′ 为从 fθ(xt,t)f\theta(\mathbf{x}_t, t)fθ(xt,t) 前向加噪得到的估计
- d(⋅,⋅)d(\cdot, \cdot)d(⋅,⋅) 为距离度量(LPIPS或L2)
采样 :单步生成 x^0=fθ(xT,T)\hat{\mathbf{x}}0 = f\theta(\mathbf{x}T, T)x^0=fθ(xT,T),或多步采样提升质量:
xti−1=xti+(ti−1−ti)⋅xti−fθ(xti,ti)ti \mathbf{x}{t_{i-1}} = \mathbf{x}{t_i} + (t{i-1}-t_i)\cdot \frac{\mathbf{x}{t_i} - f\theta(\mathbf{x}_{t_i}, t_i)}{t_i} xti−1=xti+(ti−1−ti)⋅tixti−fθ(xti,ti)
3.3 改进的一致性模型:iCT与自适应蒸馏
改进一致性训练(iCT, 2024) 针对CM的模式崩溃 和样本质量不稳定问题:
自适应一致性损失 :
LiCT=Ex,t[w(t)⋅∥fθ(xt,t)−stopgrad(x^0target)∥2] \mathcal{L}{\text{iCT}} = \mathbb{E}{\mathbf{x}, t}\left[w(t) \cdot \left\|f_\theta(\mathbf{x}_t, t) - \text{stopgrad}(\hat{\mathbf{x}}_0^{\text{target}})\right\|^2\right] LiCT=Ex,t[w(t)⋅ fθ(xt,t)−stopgrad(x^0target) 2]
其中权重 w(t)=1/E[∥∇θfθ(xt,t)∥2]w(t) = 1/\mathbb{E}[\|\nabla_\theta f_\theta(\mathbf{x}_t, t)\|^2]w(t)=1/E[∥∇θfθ(xt,t)∥2] 实现自适应梯度裁剪,稳定训练动态。
四、并行采样:打破顺序依赖的计算架构创新
4.1 问题形式化:扩散采样的顺序瓶颈
标准扩散采样为串行过程 :
xt−1=ϕ(xt,t,ϵθ)⇒xt−2=ϕ(xt−1,t−1,ϵθ)⇒⋯ \mathbf{x}{t-1} = \phi(\mathbf{x}t, t, \boldsymbol{\epsilon}\theta) \Rightarrow \mathbf{x}{t-2} = \phi(\mathbf{x}{t-1}, t-1, \boldsymbol{\epsilon}\theta) \Rightarrow \cdots xt−1=ϕ(xt,t,ϵθ)⇒xt−2=ϕ(xt−1,t−1,ϵθ)⇒⋯
每步依赖前一步输出,无法并行化。设单步时间为 τ\tauτ,总时间为 TτT\tauTτ。
4.2 ParaDiGMS:Picard迭代的并行化
Shih et al. 提出并行扩散采样(ParaDiGMS) ,将ODE求解重构为不动点迭代:
Picard迭代形式 :
xt−1(k+1)=xt+∫tt−1f(xs(k),s)ds \mathbf{x}_{t-1}^{(k+1)} = \mathbf{x}_t + \int_t^{t-1} f(\mathbf{x}_s^{(k)}, s)ds xt−1(k+1)=xt+∫tt−1f(xs(k),s)ds
其中上标 (k)(k)(k) 表示迭代轮次。关键洞察:同一轮次内的多步积分可并行计算。
算法流程:
- 初始化 :猜测轨迹 {xt−1(0),xt−2(0),...,xt−m(0)}\{\mathbf{x}{t-1}^{(0)}, \mathbf{x}{t-2}^{(0)}, \ldots, \mathbf{x}_{t-m}^{(0)}\}{xt−1(0),xt−2(0),...,xt−m(0)}
- 并行迭代 :每轮同时更新所有 mmm 个位置
- 收敛判断 :maxk∥xt−k(r+1)−xt−k(r)∥<ϵ\max_k \|\mathbf{x}{t-k}^{(r+1)} - \mathbf{x}{t-k}^{(r)}\| < \epsilonmaxk∥xt−k(r+1)−xt−k(r)∥<ϵ
复杂度分析 :设需 RRR 轮收敛,每轮并行计算 mmm 步,则:
wall-clock time=R⋅max(τparallel,m⋅τcommunication)≪m⋅τserial \text{ wall-clock time} = R \cdot \max(\tau_{\text{parallel}}, m \cdot \tau_{\text{communication}}) \ll m \cdot \tau_{\text{serial}} wall-clock time=R⋅max(τparallel,m⋅τcommunication)≪m⋅τserial
实验表明,8GPU并行可实现4倍 wall-clock 加速,与DDIM、DPM-Solver兼容 。
4.3 PCM:Picard一致性模型
Yin et al. 提出PCM(Picard Consistency Model) ,结合Picard迭代与一致性训练 :
非线性求根重构 :
将扩散ODE离散化为:
F(X)=X−Φ(X)=0 \mathbf{F}(\mathbf{X}) = \mathbf{X} - \mathbf{\Phi}(\mathbf{X}) = \mathbf{0} F(X)=X−Φ(X)=0
其中 X=[xt−1,...,xt−m]⊤\mathbf{X} = [\mathbf{x}{t-1}, \ldots, \mathbf{x}{t-m}]^\topX=[xt−1,...,xt−m]⊤,Φ\mathbf{\Phi}Φ 为离散ODE映射。
Anderson加速 :
X(k+1)=X(k)+βk∑i=0mkαi(k)(X(k−i)−X(k−i−1)) \mathbf{X}^{(k+1)} = \mathbf{X}^{(k)} + \beta_k \sum_{i=0}^{m_k} \alpha_i^{(k)} (\mathbf{X}^{(k-i)} - \mathbf{X}^{(k-i-1)}) X(k+1)=X(k)+βki=0∑mkαi(k)(X(k−i)−X(k−i−1))
通过历史迭代信息的线性组合,实现超线性收敛,缓解ParaDiGMS的慢收敛问题。
五、自适应时间步调度:非均匀采样的优化理论
5.1 频谱分析视角:噪声水平的动态分布
Wang et al. 通过频谱分析揭示去噪过程的频率特性 :
关键发现 :定义 xt\mathbf{x}_txt 的功率谱密度 St(f)S_t(f)St(f),则:
- 低频分量 (小 fff):在 t≈Tt \approx Tt≈T(高噪声)时快速变化
- 高频分量 (大 fff):在 t≈0t \approx 0t≈0(低噪声)时精细调整
数学刻画 :设去噪算子为 Dt\mathcal{D}_tDt,其频率响应满足:
∣F[Dt(x)](f)∣2∝αˉtαˉt+(1−αˉt)(2πf)2 |\mathcal{F}[\mathcal{D}_t(\mathbf{x})](f)|^2 \propto \frac{\bar{\alpha}_t}{\bar{\alpha}_t + (1-\bar{\alpha}_t)(2\pi f)^2} ∣F[Dt(x)](f)∣2∝αˉt+(1−αˉt)(2πf)2αˉt
5.2 Beta采样:非均匀时间步分布
基于上述分析,Beta采样采用非均匀时间步分布 :
ti∼Beta(α,β),i=1,...,K t_i \sim \text{Beta}(\alpha, \beta), \quad i = 1, \ldots, K ti∼Beta(α,β),i=1,...,K
其中 α<β\alpha < \betaα<β 使采样点偏向 t≈0t \approx 0t≈0(精细调整阶段)。密度函数:
p(t;α,β)=tα−1(1−t)β−1B(α,β) p(t; \alpha, \beta) = \frac{t^{\alpha-1}(1-t)^{\beta-1}}{B(\alpha, \beta)} p(t;α,β)=B(α,β)tα−1(1−t)β−1
优化目标 :最小化重构误差的期望:
minα,βEt∼Beta(α,β)[Ex0,ϵ[∥x0−x^0(K)(xt)∥2]] \min_{\alpha, \beta} \mathbb{E}{t \sim \text{Beta}(\alpha, \beta)}\left[\mathbb{E}{\mathbf{x}_0, \boldsymbol{\epsilon}}\left[\|\mathbf{x}_0 - \hat{\mathbf{x}}_0^{(K)}(\mathbf{x}_t)\|^2\right]\right] α,βminEt∼Beta(α,β)[Ex0,ϵ[∥x0−x^0(K)(xt)∥2]]
5.3 CRS:恒定速率分布变化调度
Karras et al. 提出CRS(Constant Rate Schedule) ,从第一性原理推导最优调度 :
核心思想 :保持每步的分布变化速率 恒定:
ddtD(pt∥pt−Δt)=const \frac{d}{dt} D(p_t \| p_{t-\Delta t}) = \text{const} dtdD(pt∥pt−Δt)=const
其中 D(⋅∥⋅)D(\cdot \| \cdot)D(⋅∥⋅) 为分布距离(KL散度或Wasserstein距离)。
推导结果 :对于VP-SDE(方差保持),最优噪声调度满足:
β(t)∝11−t \beta(t) \propto \frac{1}{1-t} β(t)∝1−t1
对应时间步采样密度:
p(t)∝1(1−t)2 p(t) \propto \frac{1}{(1-t)^2} p(t)∝(1−t)21
实现自适应、模型无关的快速采样。
六、理论对比与方法论选择
6.1 算法特性综合对比
| 方法类别 | 代表算法 | 数学基础 | 训练开销 | 采样步数 | 主要局限 |
|---|---|---|---|---|---|
| ODE求解器 | DDIM, DPM-Solver++ | 数值分析、指数积分 | 无 | 10-50 | 步数减少有下限 |
| 知识蒸馏 | Progressive Distillation | 监督学习、函数逼近 | 高(递归蒸馏) | 4-8 | 累积误差、模式崩溃 |
| 一致性模型 | CM, iCT | 不动点理论、ODE理论 | 中(单阶段) | 1-4 | 单步质量、训练不稳定 |
| 并行采样 | ParaDiGMS, PCM | 不动点迭代、Anderson加速 | 无 | 10-50(wall-clock↓) | 需多GPU、通信开销 |
| 自适应调度 | Beta Sampling, CRS | 频谱分析、变分优化 | 无 | 10-50 | 调度推导复杂 |
6.2 应用场景决策框架
输入:应用场景约束 {质量要求, 延迟要求, 计算资源, 训练数据}
输出:最优采样策略
IF 延迟要求 < 100ms AND 计算资源充足:
→ 一致性模型单步生成 (CM/iCT)
ELIF 延迟要求 < 1s AND 多GPU可用:
→ 并行采样 (ParaDiGMS/PCM) + ODE求解器
ELIF 质量要求极高 AND 可接受10-50步:
→ DPM-Solver++ 二阶 + CRS调度
ELIF 无训练资源 AND 需即插即用:
→ DDIM / DPM-Solver-1 默认调度
ELSE:
→ 渐进蒸馏预训练模型 (Progressive Distillation)
七、前沿进展与未来方向
7.1 扩散模型与流匹配的融合
流匹配(Flow Matching) 为扩散模型提供替代视角 :
连续性方程 :
ddtpt(x)+∇⋅(pt(x)vt(x))=0 \frac{d}{dt} p_t(\mathbf{x}) + \nabla \cdot (p_t(\mathbf{x}) \mathbf{v}_t(\mathbf{x})) = 0 dtdpt(x)+∇⋅(pt(x)vt(x))=0
其中速度场 vt(x)\mathbf{v}_t(\mathbf{x})vt(x) 直接参数化,绕过分数匹配。Rectified Flow 等技术实现直线路径,理论上单步可达最优传输。
7.2 随机微分方程的方差缩减
Girsanov定理应用于扩散采样,通过测度变换实现方差缩减 :
dQdP=exp(∫0Tut⊤dWt−12∫0T∥ut∥2dt) \frac{d\mathbb{Q}}{d\mathbb{P}} = \exp\left(\int_0^T \mathbf{u}_t^\top d\mathbf{W}_t - \frac{1}{2}\int_0^T \|\mathbf{u}_t\|^2 dt\right) dPdQ=exp(∫0Tut⊤dWt−21∫0T∥ut∥2dt)
设计最优控制 ut\mathbf{u}_tut 可大幅降低蒙特卡洛估计方差,实现少样本精确推断。
7.3 硬件-算法协同设计
扩散加速器架构:
- 专用稀疏注意力引擎
- 片上高带宽存储用于参数缓存
- 脉动阵列加速矩阵指数运算
八、结论
扩散模型快速采样技术已从早期的数值ODE求解 (DDIM, DPM-Solver),发展到知识蒸馏 (Progressive Distillation, Consistency Models),再到并行推理架构 (ParaDiGMS, PCM)和自适应调度理论(Beta Sampling, CRS)。当前研究前沿聚焦于:
- 单步生成质量提升:改进一致性训练稳定性,探索流匹配与扩散的融合
- 并行-串行混合策略:根据网络条件动态选择计算模式
- 领域自适应快速采样:针对科学计算(分子模拟、物理仿真)的专用优化
理论核心 :快速采样的本质是在近似误差 、计算复杂度 、实现可扩展性的三维空间中寻求帕累托最优,其数学基础横跨数值分析、随机过程、优化理论与机器学习。