多模态动态融合模型Predictive Dynamic Fusion论文阅读与代码分析3-部分数学理论基础

部分数学理论基础

1、凸函数性质

在区间[x,y]上的变量可以表示成xt+y(1-t)，t越大越靠近x，很好理解。

那么这个图就很好理解这个不等式：

x1就是图里的x，y就是x2。这个理解不了可以直接用直线计算公式推。

2、hoeffding不等式

霍夫丁不等式 适用于有界的随机变量。设有两两独立的一系列随机变量

。假设对所有的

都是几乎有界的变量，即满足：

那么这n个随机变量的经验期望：

满足以下的不等式：

具体推到：统计学习--详解Hoeffding不等式 - 知乎

至于这个公式怎么推导，看了半天我也不会，不是高手建议大家还是不要为难自己。

3、泛化误差上界

当我们训练一个模型时，我们通常使用一个有限的训练数据集。模型在这个训练集上的表现（例如分类错误率或回归的损失）被称为训练误差或经验风险。但我们真正关心的是模型在面对从未见过的、新的数据（来自同一个数据分布）时的表现。通过理论上的概率方法，对模型在已知数据上的误差进行放缩，来表示模型在新数据上的期望误差被称为泛化误差或期望风险。有以下作用：

避免过拟合：训练误差可能很低，但模型可能只是记住了训练数据（过拟合），导致在新数据上表现很差。泛化误差上界提醒我们，模型过于复杂（相对于数据量）可能导致泛化能力下降。

理论保证：提供了一种理论框架，用于分析学习算法的性能，并指导模型设计（例如模型复杂度的选择）。很多论文里面都会用它来说明模型在未知数据上的理论能力期望。

样本复杂度：揭示了需要多少训练样本才能以较高的概率保证泛化误差较小。

泛化误差计算公式：