马尔科夫不等式扩展:非线性函数下的概率上界
背景
在我们之前讨论的 马尔科夫不等式 中,分析的是一个随机变量 X X X 大于某个阈值 t t t 的概率。然而,在很多实际场景中,我们并不是直接关心 X X X,而是 X X X 的某种非线性变换,比如平方 X 2 X^2 X2、指数 e X e^X eX、对数 ln ( X ) \ln(X) ln(X) 等。在这种情况下,马尔科夫不等式仍然可以被扩展并适用。
通过这个扩展形式,我们可以分析一个随机变量经过变换后偏离某个阈值的概率上界,从而进一步扩展浓度不等式的应用范围。
扩展形式
假设 g ( x ) g(x) g(x) 是一个 在非负区间内严格单调递增的非负函数 (如平方函数 x 2 x^2 x2、指数函数 e x e^x ex 等),对于任何正数 t t t,马尔科夫不等式的扩展形式可以表示为:
P ( X ≥ t ) = P ( g ( X ) ≥ g ( t ) ) ≤ E [ g ( X ) ] g ( t ) , g ( t ) > 0. \mathbb{P}(X \geq t) = \mathbb{P}(g(X) \geq g(t)) \leq \frac{\mathbb{E}[g(X)]}{g(t)}, \quad g(t) > 0. P(X≥t)=P(g(X)≥g(t))≤g(t)E[g(X)],g(t)>0.
为什么只需要在非负区间内严格单调递增?
-
马尔科夫不等式的前提是非负随机变量 :
马尔科夫不等式仅适用于非负随机变量 X ≥ 0 X \geq 0 X≥0。因此,我们只需要确保函数 g ( x ) g(x) g(x) 在 x ≥ 0 x \geq 0 x≥0 时是单调递增的,这样 g ( X ) ≥ g ( t ) g(X) \geq g(t) g(X)≥g(t) 才能够准确反映 X ≥ t X \geq t X≥t 的事件。
-
函数值的非负性 :
为了满足扩展形式中的分母 g ( t ) > 0 g(t) > 0 g(t)>0,我们只要求 g ( x ) g(x) g(x) 在非负区间内为非负函数即可。即便 g ( x ) g(x) g(x) 在某些负值范围内并非非负,也不会影响实际应用,因为这些区域在 X ≥ 0 X \geq 0 X≥0 的前提下是无关的。
-
概率事件的等价性 :
g ( x ) g(x) g(x) 的单调递增性保证了事件 g ( X ) ≥ g ( t ) g(X) \geq g(t) g(X)≥g(t) 与事件 X ≥ t X \geq t X≥t 是等价的。只要 g ( x ) g(x) g(x) 在非负区间内满足这个条件,就可以正确地描述随机变量的大偏差概率。
示例解释
- 如果 g ( x ) = x 2 g(x) = x^2 g(x)=x2,则 g ( x ) g(x) g(x) 在非负区间内严格单调递增,适用于扩展形式。
- 如果 g ( x ) = e x g(x) = e^x g(x)=ex,它在整个实数区间上单调递增,因此在非负区间内自然也适用。
- 如果 g ( x ) = max ( 0 , x 3 ) g(x) = \max(0, x^3) g(x)=max(0,x3),它在非负区间内是单调递增的,即便在负区间行为复杂,也不影响在非负区间上的应用。
直观理解
扩展形式的核心思想是:我们不仅可以研究 X X X 自身大于某个阈值 t t t 的概率,还可以研究 X X X 的变换(如 X 2 X^2 X2 或 e X e^X eX)大于阈值 g ( t ) g(t) g(t) 的概率。这个结果建立在函数 g ( x ) g(x) g(x) 的单调性之上,保证事件 { X ≥ t } \{X \geq t\} {X≥t} 和 { g ( X ) ≥ g ( t ) } \{g(X) \geq g(t)\} {g(X)≥g(t)} 是等价的。
推导过程
1. 定义辅助变量
我们从原始随机变量 X X X 出发,并引入辅助变量 Y = g ( X ) Y = g(X) Y=g(X),其中 g ( x ) g(x) g(x) 是一个 在非负区间内严格单调递增的非负函数。
由于 g ( x ) g(x) g(x) 在非负区间是单调递增的,因此事件 { X ≥ t } \{X \geq t\} {X≥t} 与 { g ( X ) ≥ g ( t ) } \{g(X) \geq g(t)\} {g(X)≥g(t)} 是等价的(即当且仅当 X ≥ t X \geq t X≥t,才有 g ( X ) ≥ g ( t ) g(X) \geq g(t) g(X)≥g(t))。因此:
P ( X ≥ t ) = P ( g ( X ) ≥ g ( t ) ) . \mathbb{P}(X \geq t) = \mathbb{P}(g(X) \geq g(t)). P(X≥t)=P(g(X)≥g(t)).
2. 应用马尔科夫不等式
接下来,我们对辅助变量 Y = g ( X ) Y = g(X) Y=g(X) 应用马尔科夫不等式。根据马尔科夫不等式的形式:
P ( Y ≥ a ) ≤ E [ Y ] a , a > 0. \mathbb{P}(Y \geq a) \leq \frac{\mathbb{E}[Y]}{a}, \quad a > 0. P(Y≥a)≤aE[Y],a>0.
将 Y = g ( X ) Y = g(X) Y=g(X) 和 a = g ( t ) a = g(t) a=g(t) 代入,得到:
P ( g ( X ) ≥ g ( t ) ) ≤ E [ g ( X ) ] g ( t ) , g ( t ) > 0. \mathbb{P}(g(X) \geq g(t)) \leq \frac{\mathbb{E}[g(X)]}{g(t)}, \quad g(t) > 0. P(g(X)≥g(t))≤g(t)E[g(X)],g(t)>0.
3. 替换回原始事件
结合事件等价关系 P ( X ≥ t ) = P ( g ( X ) ≥ g ( t ) ) \mathbb{P}(X \geq t) = \mathbb{P}(g(X) \geq g(t)) P(X≥t)=P(g(X)≥g(t)),我们最终得到扩展形式:
P ( X ≥ t ) ≤ E [ g ( X ) ] g ( t ) , g ( t ) > 0. \mathbb{P}(X \geq t) \leq \frac{\mathbb{E}[g(X)]}{g(t)}, \quad g(t) > 0. P(X≥t)≤g(t)E[g(X)],g(t)>0.
应用场景举例
例子 1:平方变换
假设 X X X 是一个非负随机变量,我们希望分析 X 2 X^2 X2 超过某个值的概率。例如,假设 E [ X 2 ] = 25 \mathbb{E}[X^2] = 25 E[X2]=25,我们想知道 X 2 ≥ 100 X^2 \geq 100 X2≥100 的概率。
这里取 g ( x ) = x 2 g(x) = x^2 g(x)=x2,于是:
P ( X 2 ≥ 100 ) ≤ E [ X 2 ] 100 . \mathbb{P}(X^2 \geq 100) \leq \frac{\mathbb{E}[X^2]}{100}. P(X2≥100)≤100E[X2].
将 E [ X 2 ] = 25 \mathbb{E}[X^2] = 25 E[X2]=25 带入,得:
P ( X 2 ≥ 100 ) ≤ 25 100 = 0.25. \mathbb{P}(X^2 \geq 100) \leq \frac{25}{100} = 0.25. P(X2≥100)≤10025=0.25.
也就是说,随机变量的平方值超过 100 100 100 的概率不会超过 25 % 25\% 25%。
例子 2:指数变换
假设 X X X 是一个随机变量,我们关心 e X e^X eX 超过某个值的概率(比如 e X ≥ 20 e^X \geq 20 eX≥20)。取 g ( x ) = e x g(x) = e^x g(x)=ex,于是:
P ( e X ≥ 20 ) ≤ E [ e X ] 20 . \mathbb{P}(e^X \geq 20) \leq \frac{\mathbb{E}[e^X]}{20}. P(eX≥20)≤20E[eX].
如果 E [ e X ] = 50 \mathbb{E}[e^X] = 50 E[eX]=50,那么:
P ( e X ≥ 20 ) ≤ 50 20 = 2.5. \mathbb{P}(e^X \geq 20) \leq \frac{50}{20} = 2.5. P(eX≥20)≤2050=2.5.
这里结果是一个概率上界,如果概率超过 1 1 1,则说明不等式并没有提供有意义的限制(通常因为 E [ e X ] \mathbb{E}[e^X] E[eX] 的值太大)。
特点与局限
特点
- 广泛适用 :只要 g ( x ) g(x) g(x) 是单调递增的非负函数,就可以应用马尔科夫不等式的扩展形式。
- 灵活性:允许分析随机变量的变换值,这在许多实际问题中非常重要。
局限
- 界限宽松:和普通的马尔科夫不等式一样,这种扩展形式的界限通常较宽松,实际概率可能远小于给出的上界。
- 对函数的限制 :要求 g ( x ) g(x) g(x) 是非负且单调递增的函数,不能用于所有函数变换。
小结
马尔科夫不等式的扩展形式为我们提供了一种研究非线性变换后随机变量行为的工具。这种扩展形式非常灵活,适用于许多场景,比如分析平方、指数等变换后的随机变量。然而,与原始形式一样,这种方法提供的概率上界通常较宽松,因此常作为第一步的粗略估计。
接下来,如果想要更精准地刻画概率,我们可以继续引入方差或研究指数衰减的不等式,比如 切比雪夫不等式 或 切尔诺夫界。