马尔科夫不等式：一个快速的概率上界工具

背景

马尔科夫不等式是浓度不等式中最基础的一条。它的核心作用是：给一个非负随机变量的大偏差概率提供一个简单易用的上界。尽管它很"粗糙"，但因为对随机变量的要求很低，具有很广泛的应用场景。

核心思想

设 X X X 是一个非负随机变量（即 X ≥ 0 X \geq 0 X≥0 ），它的均值是 E [ X ] \mathbb{E}[X] E[X] 。假设你想知道 X X X 的值超过某个阈值 t > 0 t > 0 t>0 的概率，即：

P ( X ≥ t ) \mathbb{P}(X \geq t) P(X≥t)

直觉上来说，如果 X X X 的期望值很小，那么它偏离期望值很多（大于 t t t ）的概率自然会受到限制。马尔科夫不等式就明确地把这种直觉量化为：
P ( X ≥ t ) ≤ E [ X ] t . \mathbb{P}(X \geq t) \leq \frac{\mathbb{E}[X]}{t}. P(X≥t)≤tE[X].

这个公式的含义非常清楚：如果随机变量的均值小，超过某个阈值的概率就会相应变小。

推导过程

为了直观解释马尔科夫不等式，我们可以通过定义一个辅助随机变量 Y Y Y 来理解。设：
Y = { t , 如果 X ≥ t , 0 , 如果 X < t . Y = \begin{cases} t, & \text{如果 } X \geq t, \\ 0, & \text{如果 } X < t. \end{cases} Y={t,0,如果 X≥t,如果 X<t.

这个随机变量 Y Y Y 的值要么是 t t t，要么是 0 0 0，并且始终满足 Y ≤ X Y \leq X Y≤X ，因为 Y = t Y = t Y=t 的时候 t ≤ X t \leq X t≤X 。

图中展示了随机变量 Y Y Y 的定义。蓝色虚线表示 X X X，橙色曲线表示 Y Y Y 的取值。

当 X ≥ t X \geq t X≥t 时， Y = t Y = t Y=t，这一部分用橙色填充区域表示。
当 X < t X < t X<t 时， Y = 0 Y = 0 Y=0，这一部分用绿色填充区域表示。

红色虚线表示阈值 t t t。可以直观地看到， Y Y Y 的取值始终不超过 X X X，满足 Y ≤ X Y \leq X Y≤X 的条件

根据 Y Y Y 的定义，我们可以计算它的期望值：
E [ Y ] = E [ t ⋅ 1 ( X ≥ t ) ] = t ⋅ P ( X ≥ t ) . \mathbb{E}[Y] = \mathbb{E}[t \cdot \mathbf{1}(X \geq t)] = t \cdot \mathbb{P}(X \geq t). E[Y]=E[t⋅1(X≥t)]=t⋅P(X≥t).

由于 Y ≤ X Y \leq X Y≤X ，根据期望的单调性，有：
E [ Y ] ≤ E [ X ] . \mathbb{E}[Y] \leq \mathbb{E}[X]. E[Y]≤E[X].

代入 E [ Y ] = t ⋅ P ( X ≥ t ) \mathbb{E}[Y] = t \cdot \mathbb{P}(X \geq t) E[Y]=t⋅P(X≥t) ，可以得到：
t ⋅ P ( X ≥ t ) ≤ E [ X ] . t \cdot \mathbb{P}(X \geq t) \leq \mathbb{E}[X]. t⋅P(X≥t)≤E[X].

两边同时除以 t > 0 t > 0 t>0 ，我们就得到了马尔科夫不等式：
P ( X ≥ t ) ≤ E [ X ] t . \mathbb{P}(X \geq t) \leq \frac{\mathbb{E}[X]}{t}. P(X≥t)≤tE[X].

例子：投资收益的概率估算

假设你投资一个项目 X X X，它的年平均收益是 5 % 5\% 5%（即 E [ X ] = 0.05 \mathbb{E}[X] = 0.05 E[X]=0.05 ）。你想知道，收益超过 50 % 50\% 50%（即 t = 0.5 t = 0.5 t=0.5 ）的概率有多大。

根据马尔科夫不等式：
P ( X ≥ 0.5 ) ≤ E [ X ] t = 0.05 0.5 = 0.1. \mathbb{P}(X \geq 0.5) \leq \frac{\mathbb{E}[X]}{t} = \frac{0.05}{0.5} = 0.1. P(X≥0.5)≤tE[X]=0.50.05=0.1.

也就是说，收益超过 50 % 50\% 50% 的概率不会超过 10 % 10\% 10%。

特点与不足

优点

简单直观：只需要随机变量的期望值，无需其他参数。
通用性强：适用于所有非负随机变量。

缺点

界限松弛：实际概率可能远小于上界。例如，如果随机变量的分布有更多结构信息（如方差或独立性），我们可以得到更紧的概率界限。

小结

马尔科夫不等式是一种"粗粒度"的工具，用最少的信息（均值）给出了概率的一个上界。它适合于初步的概率分析，但如果想要更精确地描述随机变量的偏差行为，我们可以进一步利用 切比雪夫不等式，它通过引入方差让界限更加紧密。

在下一部分中，我们将探索切比雪夫不等式，并看到如何通过方差改进概率估计。