Hoeffing不等式 - 技术栈

在李航老师的统计学习方法（第一版中） H o e f f i n g 不等式 Hoeffing不等式 Hoeffing不等式是这样子给出的

设 X 1 , X 2 , . . . , X N X_1,X_2,...,X_N X1,X2,...,XN是独立随机变量，且 X i ∈ [ a i , b i ] , i = 1 , 2 , . . . , N ; S N = ∑ i = 1 N X i X_i\in[a_i,b_i],i=1,2,...,N;S_N=\sum_{i=1}^NX_i Xi∈[ai,bi],i=1,2,...,N;SN=∑i=1NXi，则对任意t>0，以下不等式成立：
P [ S N − E ( S N ) ≥ t ] ≤ e x p [ − 2 t 2 ∑ i = 1 N ( b i − a i ) 2 ] P[S_N-E(S_N)≥t]≤exp[-\frac{2t^2}{\sum_{i=1}^N(b_i-a_i)^2}] P[SN−E(SN)≥t]≤exp[−∑i=1N(bi−ai)22t2]
P [ E ( S N ) − S N ≥ t ] ≤ e x p [ − 2 t 2 ∑ i = 1 N ( b i − a i ) 2 ] P[E(S_N)-S_N≥t]≤exp[-\frac{2t^2}{\sum_{i=1}^N(b_i-a_i)^2}] P[E(SN)−SN≥t]≤exp[−∑i=1N(bi−ai)22t2]

这两个数学公式是关于独立随机变量和它们的和的Hoeffding不等式的表达式。它们用于估计随机变量和与其期望之间的差异的概率上界。让我解释这些不等式的含义：

假设有 N N N 个独立随机变量 X 1 , X 2 , ... , X N X_1, X_2, \ldots, X_N X1,X2,...,XN，其中每个 X i X_i Xi 的取值范围位于区间 [ a i , b i ] [a_i, b_i] [ai,bi] 内，即 a i ≤ X i ≤ b i a_i \leq X_i \leq b_i ai≤Xi≤bi，并且它们是彼此独立的。我们定义一个随机变量 S N S_N SN，表示这些随机变量的和，即 S N = ∑ i = 1 N X i S_N = \sum_{i=1}^N X_i SN=∑i=1NXi。同时，我们有 E ( S N ) E(S_N) E(SN) 表示 S N S_N SN 的期望值，即 E ( S N ) = ∑ i = 1 N E [ X i ] E(S_N) = \sum_{i=1}^N \mathbb{E}[X_i] E(SN)=∑i=1NE[Xi]。

现在，这两个不等式分别描述了以下情况：

第一个不等式:
P [ S N − E ( S N ) ≥ t ] ≤ exp ⁡ ( − 2 t 2 ∑ i = 1 N ( b i − a i ) 2 ) P[S_N - E(S_N) \geq t] \leq \exp\left(-\frac{2t^2}{\sum_{i=1}^N (b_i - a_i)^2}\right) P[SN−E(SN)≥t]≤exp(−∑i=1N(bi−ai)22t2)

这个不等式表示随机变量和 S N S_N SN 超过其期望值 E ( S N ) E(S_N) E(SN) 的值大于或等于 t t t 的概率不会超过 exp ⁡ ( − 2 t 2 ∑ i = 1 N ( b i − a i ) 2 ) \exp\left(-\frac{2t^2}{\sum_{i=1}^N (b_i - a_i)^2}\right) exp(−∑i=1N(bi−ai)22t2)。换句话说，它提供了一个关于 S N S_N SN 偏离其期望值的概率上界。

第二个不等式:
P [ E ( S N ) − S N ≥ t ] ≤ exp ⁡ ( − 2 t 2 ∑ i = 1 N ( b i − a i ) 2 ) P[E(S_N) - S_N \geq t] \leq \exp\left(-\frac{2t^2}{\sum_{i=1}^N (b_i - a_i)^2}\right) P[E(SN)−SN≥t]≤exp(−∑i=1N(bi−ai)22t2)

这个不等式表示随机变量和 S N S_N SN 低于其期望值 E ( S N ) E(S_N) E(SN) 的值大于或等于 t t t 的概率不会超过 exp ⁡ ( − 2 t 2 ∑ i = 1 N ( b i − a i ) 2 ) \exp\left(-\frac{2t^2}{\sum_{i=1}^N (b_i - a_i)^2}\right) exp(−∑i=1N(bi−ai)22t2)。它提供了一个关于 S N S_N SN 偏离其期望值的概率上界，但是方向与第一个不等式相反。

这些不等式是Hoeffding不等式的一种形式，它们可用于估计随机变量和的性质以及样本统计的可靠性。不等式的右侧是关于样本范围 [ a i , b i ] [a_i, b_i] [ai,bi] 的性质和观察样本数量 N N N 的函数，它们决定了概率上界的大小。这些不等式对于分析随机过程和估计样本均值的可信度非常有用。

在李航老师统计学习方法（第二版中）是这样子给出

设 X 1 , X 2 , . . . , X N X_1,X_2,...,X_N X1,X2,...,XN是独立随机变量，且 X i ∈ [ a i , b i ] , i = 1 , 2 , . . . , N ; X ˉ X_i\in[a_i,b_i],i=1,2,...,N;\bar{X} Xi∈[ai,bi],i=1,2,...,N;Xˉ是 X 1 , X 2 , . . . , X N X_1,X_2,...,X_N X1,X2,...,XN的经验均值， X ˉ = 1 N ∑ i = 1 N X i \bar{X}=\frac{1}{N}\sum_{i=1}^NX_i Xˉ=N1∑i=1NXi ，则对任意t>0，以下不等式成立
P [ X ˉ − E ( X ˉ ) ≥ t ] ≤ exp ⁡ ( − 2 N 2 t 2 ∑ i = 1 N ( b i − a i ) 2 ) P[\bar{X} - E(\bar{X}) \geq t] \leq \exp\left(-\frac{2N^2t^2}{\sum_{i=1}^N (b_i - a_i)^2}\right) P[Xˉ−E(Xˉ)≥t]≤exp(−∑i=1N(bi−ai)22N2t2)
P [ E ( X ˉ ) − X ˉ ≥ t ] ≤ exp ⁡ ( − 2 N 2 t 2 ∑ i = 1 N ( b i − a i ) 2 ) P[E(\bar{X}) - \bar{X} \geq t] \leq \exp\left(-\frac{2N^2t^2}{\sum_{i=1}^N (b_i - a_i)^2}\right) P[E(Xˉ)−Xˉ≥t]≤exp(−∑i=1N(bi−ai)22N2t2)

这两个不等式是关于经验均值（样本均值） X ˉ \bar{X} Xˉ 与其期望值 E ( X ˉ ) E(\bar{X}) E(Xˉ) 之间的差异的概率上界，这些差异由Hoeffding不等式提供。让我解释这些不等式的含义：

假设有 N N N 个独立随机变量 X 1 , X 2 , ... , X N X_1, X_2, \ldots, X_N X1,X2,...,XN，其中每个 X i X_i Xi 的取值范围位于区间 [ a i , b i ] [a_i, b_i] [ai,bi] 内，即 a i ≤ X i ≤ b i a_i \leq X_i \leq b_i ai≤Xi≤bi，并且它们是彼此独立的。我们定义一个随机变量 X ˉ \bar{X} Xˉ，表示这些随机变量的经验均值（样本均值），即 X ˉ = 1 N ∑ i = 1 N X i \bar{X} = \frac{1}{N}\sum_{i=1}^N X_i Xˉ=N1∑i=1NXi。

现在，这两个不等式分别描述了以下情况：

第一个不等式:
P [ X ˉ − E ( X ˉ ) ≥ t ] ≤ exp ⁡ ( − 2 N 2 t 2 ∑ i = 1 N ( b i − a i ) 2 ) P[\bar{X} - E(\bar{X}) \geq t] \leq \exp\left(-\frac{2N^2t^2}{\sum_{i=1}^N (b_i - a_i)^2}\right) P[Xˉ−E(Xˉ)≥t]≤exp(−∑i=1N(bi−ai)22N2t2)

这个不等式表示经验均值 X ˉ \bar{X} Xˉ 超过其期望值 E ( X ˉ ) E(\bar{X}) E(Xˉ) 的值大于或等于 t t t 的概率不会超过 exp ⁡ ( − 2 N 2 t 2 ∑ i = 1 N ( b i − a i ) 2 ) \exp\left(-\frac{2N^2t^2}{\sum_{i=1}^N (b_i - a_i)^2}\right) exp(−∑i=1N(bi−ai)22N2t2)。换句话说，它提供了一个关于经验均值 X ˉ \bar{X} Xˉ 偏离其期望值 E ( X ˉ ) E(\bar{X}) E(Xˉ) 的概率上界。

第二个不等式:
P [ E ( X ˉ ) − X ˉ ≥ t ] ≤ exp ⁡ ( − 2 N 2 t 2 ∑ i = 1 N ( b i − a i ) 2 ) P[E(\bar{X}) - \bar{X} \geq t] \leq \exp\left(-\frac{2N^2t^2}{\sum_{i=1}^N (b_i - a_i)^2}\right) P[E(Xˉ)−Xˉ≥t]≤exp(−∑i=1N(bi−ai)22N2t2)

这个不等式表示经验均值 X ˉ \bar{X} Xˉ 低于其期望值 E ( X ˉ ) E(\bar{X}) E(Xˉ) 的值大于或等于 t t t 的概率不会超过 exp ⁡ ( − 2 N 2 t 2 ∑ i = 1 N ( b i − a i ) 2 ) \exp\left(-\frac{2N^2t^2}{\sum_{i=1}^N (b_i - a_i)^2}\right) exp(−∑i=1N(bi−ai)22N2t2)。它提供了一个关于经验均值 X ˉ \bar{X} Xˉ 偏离其期望值 E ( X ˉ ) E(\bar{X}) E(Xˉ) 的概率上界，但方向与第一个不等式相反。

这些不等式是Hoeffding不等式的一种形式，它们可用于估计经验均值的性质以及样本统计的可靠性。不等式的右侧是关于样本范围 [ a i , b i ] [a_i, b_i] [ai,bi] 的性质和观察样本数量 N N N 的函数，它们决定了概率上界的大小。这些不等式对于分析随机过程和估计样本均值的可信度非常有用。

如何从第一版推理到第二版

要从第一组不等式推导出第二组不等式，您可以使用一些基本的概率论和数学推导的技巧。下面是一种可能的推导方法：

首先，我们有 S N = ∑ i = 1 N X i S_N = \sum_{i=1}^N X_i SN=∑i=1NXi，并且 X ˉ = 1 N S N \bar{X} = \frac{1}{N}S_N Xˉ=N1SN。因此，我们可以将 S N S_N SN 表示为 X ˉ \bar{X} Xˉ 的形式：

S N = N ⋅ X ˉ S_N = N \cdot \bar{X} SN=N⋅Xˉ

接下来，让我们考虑第一个不等式：
P [ S N − E ( S N ) ≥ t ] ≤ exp ⁡ ( − 2 t 2 ∑ i = 1 N ( b i − a i ) 2 ) P[S_N - E(S_N) \geq t] \leq \exp\left(-\frac{2t^2}{\sum_{i=1}^N (b_i - a_i)^2}\right) P[SN−E(SN)≥t]≤exp(−∑i=1N(bi−ai)22t2)

现在用 S N = N ⋅ X ˉ S_N = N \cdot \bar{X} SN=N⋅Xˉ 和 E ( S N ) = N ⋅ E ( X ˉ ) E(S_N) = N \cdot E(\bar{X}) E(SN)=N⋅E(Xˉ) 替换右侧的 S N S_N SN 和 E ( S N ) E(S_N) E(SN)：
P [ N ⋅ X ˉ − N ⋅ E ( X ˉ ) ≥ t ] ≤ exp ⁡ ( − 2 t 2 ∑ i = 1 N ( b i − a i ) 2 ) P[N \cdot \bar{X} - N \cdot E(\bar{X}) \geq t] \leq \exp\left(-\frac{2t^2}{\sum_{i=1}^N (b_i - a_i)^2}\right) P[N⋅Xˉ−N⋅E(Xˉ)≥t]≤exp(−∑i=1N(bi−ai)22t2)

然后，我们可以将 N N N 提取出来，并且在不等式两侧都除以 N N N，得到：
P [ X ˉ − E ( X ˉ ) ≥ t N ] ≤ exp ⁡ ( − 2 t 2 ∑ i = 1 N ( b i − a i ) 2 ) P[\bar{X} - E(\bar{X}) \geq \frac{t}{N}] \leq \exp\left(-\frac{2t^2}{\sum_{i=1}^N (b_i - a_i)^2}\right) P[Xˉ−E(Xˉ)≥Nt]≤exp(−∑i=1N(bi−ai)22t2)

最后，为了得到形式与第二组不等式相同的表达式，让 t ′ = t N t' = \frac{t}{N} t′=Nt，则不等式变为：
P [ X ˉ − E ( X ˉ ) ≥ t ′ ] ≤ exp ⁡ ( − 2 N 2 t ′ 2 ∑ i = 1 N ( b i − a i ) 2 ) P[\bar{X} - E(\bar{X}) \geq t'] \leq \exp\left(-\frac{2N^2t'^2}{\sum_{i=1}^N (b_i - a_i)^2}\right) P[Xˉ−E(Xˉ)≥t′]≤exp(−∑i=1N(bi−ai)22N2t′2)

这就得到了第二组不等式。现在，第二组不等式的形式与第一组不等式相同，只是将 t t t 替换为了 t ′ = t N t' = \frac{t}{N} t′=Nt，而其他部分保持不变。这个过程用到了线性变换的性质以及概率论的基本规则，允许我们从一个不等式推导到另一个不等式，只需简单的代换。

如何推理得到泛化误差上界

证明：

第一步
假设在每一个样本点 x i x_i xi， y i y_i yi处的损失为 X i ， X i = L ( y i , f ( x i ) ) X_i，X_i=L(y_i,f(x_i)) Xi，Xi=L(yi,f(xi))，则
X ˉ = 1 N ∑ i = 1 N L ( y i , f ( x i ) ) = R ^ ( f ) \bar{X}=\frac{1}{N} \sum_{i=1}^NL(y_i,f(x_i))=\hat{R}(f) Xˉ=N1i=1∑NL(yi,f(xi))=R^(f)
E ( X ˉ ) = E ( 1 N ∑ i = 1 N L ( y i , f ( x i ) ) ) = 1 N ∑ i = 1 N E ( L ( y i , f ( x i ) ) ) = 1 N ∑ i = 1 N E ( L ( Y , f ( X ) ) ) = E ( L ( Y , F ( X ) ) ) = R ( f ) E(\bar{X})=E(\frac{1}{N} \sum_{i=1}^NL(y_i,f(x_i)))=\frac{1}{N} \sum_{i=1}^NE(L(y_i,f(x_i))) =\frac{1}{N} \sum_{i=1}^NE(L(Y,f(X)))=E(L(Y,F(X)))=R(f) E(Xˉ)=E(N1i=1∑NL(yi,f(xi)))=N1i=1∑NE(L(yi,f(xi)))=N1i=1∑NE(L(Y,f(X)))=E(L(Y,F(X)))=R(f)
对二分类问题，对于所有 i ， [ a i , b i ] = [ 0 , 1 ] i，[a_i,b_i]=[0,1] i，[ai,bi]=[0,1]

这些等式是关于损失、经验风险和泛化误差的表达式，针对二分类问题，其中每个样本点都有一个损失函数 X i X_i Xi，损失函数的定义为 X i = L ( y i , f ( x i ) ) X_i = L(y_i, f(x_i)) Xi=L(yi,f(xi))，其中 y i y_i yi 是真实标签， f ( x i ) f(x_i) f(xi) 是模型 f f f 对输入 x i x_i xi 的预测。

以下是这些等式的解释：

X ˉ = 1 N ∑ i = 1 N L ( y i , f ( x i ) ) = R ^ ( f ) \bar{X}=\frac{1}{N} \sum_{i=1}^NL(y_i,f(x_i))=\hat{R}(f) Xˉ=N1∑i=1NL(yi,f(xi))=R^(f)
- X ˉ \bar{X} Xˉ 表示样本均值，也就是所有损失函数 X i X_i Xi 的平均值。
- R ^ ( f ) \hat{R}(f) R^(f) 表示经验风险，它是模型 f f f 在训练数据上的平均损失。
- 这个等式表示，样本均值 X ˉ \bar{X} Xˉ 等于模型 f f f 在训练数据上的经验风险 R ^ ( f ) \hat{R}(f) R^(f)。
E ( X ˉ ) = E ( 1 N ∑ i = 1 N L ( y i , f ( x i ) ) ) = 1 N ∑ i = 1 N E ( L ( y i , f ( x i ) ) ) = 1 N ∑ i = 1 N E ( L ( Y , f ( X ) ) ) = E ( L ( Y , F ( X ) ) ) = R ( f ) E(\bar{X})=E(\frac{1}{N} \sum_{i=1}^NL(y_i,f(x_i))) =\frac{1}{N} \sum_{i=1}^NE(L(y_i,f(x_i))) =\frac{1}{N} \sum_{i=1}^NE(L(Y,f(X)))=E(L(Y,F(X)))=R(f) E(Xˉ)=E(N1∑i=1NL(yi,f(xi)))=N1∑i=1NE(L(yi,f(xi)))=N1∑i=1NE(L(Y,f(X)))=E(L(Y,F(X)))=R(f)
- E ( X ˉ ) E(\bar{X}) E(Xˉ) 表示样本均值 X ˉ \bar{X} Xˉ 的期望值，即在所有可能的训练数据集上取平均得到的损失的期望值。
- E ( L ( y i , f ( x i ) ) ) E(L(y_i,f(x_i))) E(L(yi,f(xi))) 表示在单个样本点上的损失函数的期望值。
- 1 N ∑ i = 1 N E ( L ( y i , f ( x i ) ) ) \frac{1}{N} \sum_{i=1}^NE(L(y_i,f(x_i))) N1∑i=1NE(L(yi,f(xi))) 表示在整个训练数据集上的平均损失函数的期望值，也就是经验风险 R ^ ( f ) \hat{R}(f) R^(f) 的期望值。
- 1 N ∑ i = 1 N E ( L ( Y , f ( X ) ) ) \frac{1}{N} \sum_{i=1}^NE(L(Y,f(X))) N1∑i=1NE(L(Y,f(X))) 表示在所有可能的训练数据集上取平均得到的泛化误差的期望值。
- E ( L ( Y , F ( X ) ) ) E(L(Y,F(X))) E(L(Y,F(X))) 表示在所有可能的输入数据和真实标签上取平均得到的模型 f f f 的泛化误差的期望值。
- R ( f ) R(f) R(f) 表示模型 f f f 的泛化误差。
- 这个等式表示，样本均值 X ˉ \bar{X} Xˉ 的期望值等于模型 f f f 的泛化误差 R ( f ) R(f) R(f)。

总结起来，这些等式说明了在二分类问题中，经验风险 R ^ ( f ) \hat{R}(f) R^(f) 等于样本均值 X ˉ \bar{X} Xˉ，而模型 f f f 的泛化误差 R ( f ) R(f) R(f) 等于样本均值的期望值 E ( X ˉ ) E(\bar{X}) E(Xˉ)。这些等式强调了模型的经验风险和泛化误差之间的关系。

1 N ∑ i = 1 N E ( L ( y i , f ( x i ) ) ) = 1 N ∑ i = 1 N E ( L ( Y , f ( X ) ) ) \frac{1}{N} \sum_{i=1}^NE(L(y_i,f(x_i))) =\frac{1}{N} \sum_{i=1}^NE(L(Y,f(X))) N1∑i=1NE(L(yi,f(xi)))=N1∑i=1NE(L(Y,f(X)))

这两个表达式之所以相等，是因为它们表示了相同的概念，只是在符号上稍有不同。让我解释一下它们的含义：

1 N ∑ i = 1 N E ( L ( y i , f ( x i ) ) ) \frac{1}{N} \sum_{i=1}^N E(L(y_i, f(x_i))) N1∑i=1NE(L(yi,f(xi)))：
- 这个表达式的意思是，首先对每个样本点 i i i 计算损失函数 L ( y i , f ( x i ) ) L(y_i, f(x_i)) L(yi,f(xi)) 的期望值，然后将这些期望值相加并取平均，其中 N N N 是样本数量。
- 损失函数 L ( y i , f ( x i ) ) L(y_i, f(x_i)) L(yi,f(xi)) 的期望值表示在给定输入 x i x_i xi 和真实标签 y i y_i yi 的情况下，模型 f f f 预测的损失的期望值。
1 N ∑ i = 1 N E ( L ( Y , f ( X ) ) ) \frac{1}{N} \sum_{i=1}^N E(L(Y, f(X))) N1∑i=1NE(L(Y,f(X)))：
- 这个表达式的意思是，在所有可能的输入数据 X X X 和真实标签 Y Y Y 的情况下，首先计算模型 f f f 预测的损失函数 L ( Y , f ( X ) ) L(Y, f(X)) L(Y,f(X)) 的期望值，然后将这些期望值相加并取平均，其中 N N N 仍然表示样本数量。
- 这相当于对所有可能的训练数据集（每个训练数据集都有不同的 X X X 和 Y Y Y）计算模型的平均损失。

这两个表达式之所以相等，是因为它们都试图描述模型的平均损失，只是计算的方式略有不同。第一个表达式是在给定特定的训练数据集上计算平均损失，而第二个表达式是在考虑所有可能的训练数据集时计算平均损失。在实际应用中，通常只有一个训练数据集，因此第一个表达式更常见，但理论上它们等价。

X ˉ = 1 N ∑ i = 1 N L ( y i , f ( x i ) ) \bar{X}=\frac{1}{N} \sum_{i=1}^NL(y_i,f(x_i)) Xˉ=N1∑i=1NL(yi,f(xi))

这个等式是关于样本均值（ X ˉ \bar{X} Xˉ）的定义，其中损失函数的期望值被表示为平均损失。让我解释一下这个等式是如何来的：

假设我们有一个包含 N N N 个样本的训练数据集，每个样本都由一个输入 x i x_i xi 和对应的真实标签 y i y_i yi 组成。我们使用模型 f f f 对每个输入 x i x_i xi 进行预测，并计算损失函数 L ( y i , f ( x i ) ) L(y_i, f(x_i)) L(yi,f(xi)) 的值。这个损失函数表示了模型对于每个样本的预测与真实标签之间的误差。

现在， 1 N ∑ i = 1 N L ( y i , f ( x i ) ) \frac{1}{N} \sum_{i=1}^N L(y_i, f(x_i)) N1∑i=1NL(yi,f(xi)) 表示的是计算了所有样本上的损失函数值，然后取了这些值的平均。这就是样本均值，表示了模型在整个训练数据集上的平均损失。

换句话说， X ˉ \bar{X} Xˉ 是模型 f f f 在训练数据集上的平均损失。这个等式的右侧表示对每个样本的损失函数 L ( y i , f ( x i ) ) L(y_i, f(x_i)) L(yi,f(xi)) 求期望值，然后将这些期望值相加并除以样本数量 N N N，这与计算平均损失的概念一致。

因此， X ˉ = 1 N ∑ i = 1 N L ( y i , f ( x i ) ) \bar{X} = \frac{1}{N} \sum_{i=1}^N L(y_i, f(x_i)) Xˉ=N1∑i=1NL(yi,f(xi)) 是样本均值的定义，它代表了模型在训练数据集上的平均损失。这个概念在机器学习中非常重要，因为我们经常希望了解模型在训练数据上的性能以及优化模型的损失函数。

第二步
推不下去了，等补补基础再来吧^_^