【AI知识点】二项分布(Binomial Distribution)

二项分布(Binomial Distribution) 是概率论和统计学中描述独立重复的伯努利试验 中成功次数的离散概率分布。它是基于多次 独立的伯努利试验的扩展,用于描述在 n n n 次试验中发生成功的次数。

1. 二项分布的定义

二项分布用于描述在 n n n 次独立的伯努利试验中,成功发生的次数 。每次伯努利试验只有两种结果------成功失败 ,成功的概率为 p p p,失败的概率为 1 − p 1 - p 1−p。

概率质量函数(PMF)

如果随机变量 X X X 表示 n n n 次独立的伯努利试验中成功的次数,且成功的概率为 p p p,那么 X X X 服从二项分布,记为:

X ∼ Bin ( n , p ) X \sim \text{Bin}(n, p) X∼Bin(n,p)

二项分布的概率质量函数(PMF)为:

P ( X = k ) = ( n k ) p k ( 1 − p ) n − k P(X = k) = \binom{n}{k} p^k (1 - p)^{n - k} P(X=k)=(kn)pk(1−p)n−k

其中:

  • X X X 是成功的次数。
  • n n n 是试验次数(即进行的独立伯努利试验的总次数)。
  • p p p 是每次试验成功的概率。
  • ( n k ) \binom{n}{k} (kn) 是组合数 ,表示从 n n n 次试验中选择 k k k 次成功的方式数,公式为:

( n k ) = n ! k ! ( n − k ) ! \binom{n}{k} = \frac{n!}{k!(n-k)!} (kn)=k!(n−k)!n!


2. 二项分布的性质

a. 期望值(Expectation)

二项分布的期望值表示在 n n n 次试验中成功的平均次数。二项分布的期望值 E ( X ) E(X) E(X) 为:

E ( X ) = n p E(X) = np E(X)=np

这意味着,成功的平均次数是试验次数 n n n 和单次成功概率 p p p 的乘积。例如,投掷硬币 10 次,如果每次正面的概率为 0.5,则出现正面的期望次数是 10 × 0.5 = 5 10 \times 0.5 = 5 10×0.5=5。

b. 方差(Variance)

方差描述成功次数的波动性或离散程度。二项分布的方差 V a r ( X ) Var(X) Var(X) 为:

V a r ( X ) = n p ( 1 − p ) Var(X) = np(1 - p) Var(X)=np(1−p)

方差表明,成功次数的波动性取决于试验次数 n n n、成功概率 p p p 和失败概率 1 − p 1 - p 1−p。

c. 标准差(Standard Deviation)

标准差是方差的平方根,用于衡量成功次数的波动程度:

σ ( X ) = n p ( 1 − p ) \sigma(X) = \sqrt{np(1 - p)} σ(X)=np(1−p)

d. 二项分布的形状

  • 当 p = 0.5 p = 0.5 p=0.5 时,二项分布是对称的,成功和失败的概率相等。此时,分布的平均值位于 n / 2 n/2 n/2 附近。
  • 当 p > 0.5 p > 0.5 p>0.5 时,分布向右偏斜,成功的次数更可能接近 n n n。
  • 当 p < 0.5 p < 0.5 p<0.5 时,分布向左偏斜,成功的次数更可能接近 0。

图例说明如下:

这张图展示了三种不同参数设置下的二项分布,其中横坐标表示随机变量(成功次数),纵坐标表示每个随机变量对应的概率(即发生特定成功次数的概率)。


图片来源:https://medium.com/@abhishekjainindore24/all-about-binomial-distribution-ba476ea4642f

图中展示了三个不同的二项分布:

  1. 绿色柱形图 : p = 0.5 p = 0.5 p=0.5 且 n = 20 n = 20 n=20,表示进行了 20 次试验,每次成功的概率为 0.5。分布呈对称形状,均值大约在 10 次成功附近( n × p = 20 × 0.5 = 10 n \times p = 20 \times 0.5 = 10 n×p=20×0.5=10)。

  2. 棕色柱形图 : p = 0.7 p = 0.7 p=0.7 且 n = 20 n = 20 n=20,表示进行了 20 次试验,每次成功的概率为 0.7。分布向右偏斜,表示成功次数更多,均值接近 14 次( n × p = 20 × 0.7 = 14 n \times p = 20 \times 0.7 = 14 n×p=20×0.7=14)。

  3. 紫色柱形图 : p = 0.5 p = 0.5 p=0.5 且 n = 40 n = 40 n=40,表示进行了 40 次试验,每次成功的概率为 0.5。分布较宽且更加集中,均值大约在 20 次成功附近( n × p = 40 × 0.5 = 20 n \times p = 40 \times 0.5 = 20 n×p=40×0.5=20)。

总结:

  • n n n(试验次数) :随着 n n n 增大,分布变得更加集中和对称。
  • p p p(成功概率) :随着 p p p 增大,分布向右偏斜,成功次数的期望值增加。

3. 二项分布的例子

二项分布适用于任何重复的独立伯努利试验 ,即每次试验结果只可能是成功或失败,并且每次试验的成功概率 p p p 是相同的。

例子1:投掷硬币

假设我们进行 10 次独立的投掷硬币实验,每次投掷硬币的正面朝上的概率为 p = 0.5 p = 0.5 p=0.5。令 X X X 表示正面朝上的次数,则 X ∼ Bin ( 10 , 0.5 ) X \sim \text{Bin}(10, 0.5) X∼Bin(10,0.5)。

计算恰好有 6 次正面朝上的概率:

P ( X = 6 ) = ( 10 6 ) ( 0.5 ) 6 ( 0.5 ) 4 = 10 ! 6 ! 4 ! ( 0.5 ) 10 = 0.205 P(X = 6) = \binom{10}{6} (0.5)^6 (0.5)^4 = \frac{10!}{6!4!} (0.5)^{10} = 0.205 P(X=6)=(610)(0.5)6(0.5)4=6!4!10!(0.5)10=0.205

即,在 10 次投掷硬币中,有 6 次正面朝上的概率为 0.205。

例子2:考试通过率

假设某场考试的通过率为 80%,某班有 10 个学生参加考试。我们可以用二项分布来描述通过考试的学生人数。令 X X X 表示通过考试的学生人数,则 X ∼ Bin ( 10 , 0.8 ) X \sim \text{Bin}(10, 0.8) X∼Bin(10,0.8)。

计算恰好有 8 个学生通过考试的概率:

P ( X = 8 ) = ( 10 8 ) ( 0.8 ) 8 ( 0.2 ) 2 = 0.302 P(X = 8) = \binom{10}{8} (0.8)^8 (0.2)^2 = 0.302 P(X=8)=(810)(0.8)8(0.2)2=0.302

即,恰好有 8 个学生通过考试的概率为 0.302。


4. 二项分布的推导

二项分布是通过 n n n 次独立的伯努利试验推导出来的,每次试验的结果是独立的成功或失败。

a. 组合数的解释

( n k ) \binom{n}{k} (kn) 代表从 n n n 次试验中选择 k k k 次成功的方式数。组合数的公式为:

( n k ) = n ! k ! ( n − k ) ! \binom{n}{k} = \frac{n!}{k!(n-k)!} (kn)=k!(n−k)!n!

它表示有多少种方式可以从 n n n 次试验中选择 k k k 次成功。

b. 成功和失败的概率

成功发生 k k k 次的概率为 p k p^k pk,而失败发生 n − k n-k n−k 次的概率为 ( 1 − p ) n − k (1-p)^{n-k} (1−p)n−k。二项分布的概率质量函数是这三部分的乘积:

P ( X = k ) = ( n k ) p k ( 1 − p ) n − k P(X = k) = \binom{n}{k} p^k (1 - p)^{n - k} P(X=k)=(kn)pk(1−p)n−k

这就是二项分布的公式,表示在 n n n 次试验中恰好有 k k k 次成功的概率。


5. 二项分布与其他分布的关系

a. 伯努利分布

二项分布是伯努利分布的推广。伯努利分布表示单次伯努利试验的成功或失败,而二项分布表示多次独立的伯努利试验中的成功次数。

  • 如果 n = 1 n = 1 n=1,则二项分布退化为伯努利分布。

b. 泊松分布

当 n n n 很大而 p p p 很小时,且 n ⋅ p = λ n \cdot p = \lambda n⋅p=λ 是常数时,二项分布趋近于泊松分布。这种情况下,二项分布可以用来近似泊松分布,描述稀有事件的发生次数。

c. 正态分布

当试验次数 n n n 很大时,二项分布可以近似为正态分布。这是因为根据中心极限定理 ,当 n n n 较大时,二项分布的形状逐渐趋于对称,并且接近正态分布。

  • 当 n p > 5 np > 5 np>5 且 n ( 1 − p ) > 5 n(1 - p) > 5 n(1−p)>5 时,二项分布可以用正态分布进行近似。

6. 二项分布的实际应用

a. 质量控制

在质量控制中,二项分布用于描述生产线中合格产品和不合格产品的数量。例如,从生产线上随机抽取 100 个产品,检查其中有多少个合格产品,这可以用二项分布来建模。

b. 市场营销

二项分布用于建模市场营销中的成功概率。例如,在发送电子邮件广告时,可以用二项分布来计算有多少人会响应广告。

c. 生物统计

在生物统计学中,二项分布用于建模二元结果(如存活/死亡、健康/疾病等)的实验。例如,进行 100 次药物实验,记录有多少病人康复。


7. 总结

二项分布 是描述多次独立伯努利试验中成功次数的离散概率分布。它通过组合数计算成功次数的方式数,并将成功和失败的概率组合在一起,得到在 n n n 次试验中成功 k k k 次的概率。二项分布广泛应用于统计学、质量控制、市场营销、医学实验等领域,用于建模多次重复试验中某个事件发生的次数。

相关推荐
AI_NEW_COME29 分钟前
知识库管理系统可扩展性深度测评
人工智能
海棠AI实验室1 小时前
AI的进阶之路:从机器学习到深度学习的演变(一)
人工智能·深度学习·机器学习
hunteritself1 小时前
AI Weekly『12月16-22日』:OpenAI公布o3,谷歌发布首个推理模型,GitHub Copilot免费版上线!
人工智能·gpt·chatgpt·github·openai·copilot
IT古董2 小时前
【机器学习】机器学习的基本分类-强化学习-策略梯度(Policy Gradient,PG)
人工智能·机器学习·分类
centurysee2 小时前
【最佳实践】Anthropic:Agentic系统实践案例
人工智能
mahuifa2 小时前
混合开发环境---使用编程AI辅助开发Qt
人工智能·vscode·qt·qtcreator·编程ai
四口鲸鱼爱吃盐2 小时前
Pytorch | 从零构建GoogleNet对CIFAR10进行分类
人工智能·pytorch·分类
蓝天星空2 小时前
Python调用open ai接口
人工智能·python
睡觉狂魔er2 小时前
自动驾驶控制与规划——Project 3: LQR车辆横向控制
人工智能·机器学习·自动驾驶
scan7242 小时前
LILAC采样算法
人工智能·算法·机器学习