概率论与数理统计:期末复习梳理

随机事件及其概率

一些符号

∅∅∅ ------ 不可能事件
ΩΩΩ ------ 必然事件

A、B互不相容

A∩B=AB=∅A∩B = AB = ∅A∩B=AB=∅

对立事件

P(A‾)=1−P(A)P(\overline{A})=1-P(A)P(A)=1−P(A)

加法公式

P(AUB)=P(A)+P(B)−P(AB)P(AUB) = P(A) + P(B) - P(AB)P(AUB)=P(A)+P(B)−P(AB)
P(AUBUC)=P(A)+P(B)+P(C)−P(AB)−P(AC)−P(BC)+P(ABC)P(AUBUC) =P(A) + P(B) + P(C) - P(AB) - P(AC) - P(BC) + P(ABC)P(AUBUC)=P(A)+P(B)+P(C)−P(AB)−P(AC)−P(BC)+P(ABC)
AB⊆AAB \subseteq AAB⊆A,P(AB)≤P(A)P(AB) \le P(A)P(AB)≤P(A)

减法公式

P(A−B)=P(AB‾)=P(A)−P(AB)P(A-B)=P(A\overline{B})=P(A)-P(AB)P(A−B)=P(AB)=P(A)−P(AB)

概率的古典定义

P(A)=nanΩP(A) =\frac{n_a}{n_Ω}P(A)=nΩna

条件概率

P(A∣B)=P(AB)P(B)P(A|B)=\frac{P(AB)}{P(B)}P(A∣B)=P(B)P(AB)

乘法公式

P(AB)=P(A∣B)P(B)=P(B∣A)P(A)P(AB)=P(A|B)P(B)=P(B|A)P(A)P(AB)=P(A∣B)P(B)=P(B∣A)P(A)

A、B相互独立

  1. 充要条件为P(AB)=P(A)P(B)P(AB)=P(A)P(B)P(AB)=P(A)P(B)
  2. 若A、B相互独立,那么AAA与B‾\overline{B}B,A‾\overline{A}A与B‾\overline{B}B,A‾\overline{A}A与BBB都独立
  3. P(B∣A)=P(B)P(B|A)=P(B)P(B∣A)=P(B)
  4. P(B‾∣A)=P(B‾)P(\overline{B}|A) = P(\overline{B})P(B∣A)=P(B)

A、B、C相互独立

充要条件为{P(AB)=P(A)P(B)P(AC)=P(A)P(C)P(BC)=P(B)P(C)P(ABC)=P(A)P(B)P(C)\left\{ \begin{aligned} P(AB)=P(A)P(B) \\ P(AC)=P(A)P(C) \\ P(BC)=P(B)P(C) \\ P(ABC)=P(A)P(B)P(C)\end{aligned} \right.⎩ ⎨ ⎧P(AB)=P(A)P(B)P(AC)=P(A)P(C)P(BC)=P(B)P(C)P(ABC)=P(A)P(B)P(C)

A1、A2、...、AnA_1、A_2、...、A_nA1、A2、...、An相互独立

需要满足2n−n−12^n-n-12n−n−1个式子,利用二项式定理可知

全概率公式

P(A)=P(AB1)+P(AB2)+P(AB3)=P(B1)P(A∣B1)+P(B2)P(A∣B2)+P(B3)P(A∣B3)P(A)=P(AB_1)+P(AB_2)+P(AB_3)=P(B_1)P(A|B_1)+P(B_2)P(A|B_2)+P(B_3)P(A|B_3)P(A)=P(AB1)+P(AB2)+P(AB3)=P(B1)P(A∣B1)+P(B2)P(A∣B2)+P(B3)P(A∣B3)

贝叶斯公式

P(B1∣A)=P(AB1)A=P(B1)P(A∣B1)P(B1)P(A∣B1)+P(B2)P(A∣B2)+P(B3)P(A∣B3)P(B_1|A)=\frac{P(AB_1)}{A}=\frac{P(B_1)P(A|B_1)}{P(B_1)P(A|B_1)+P(B_2)P(A|B_2)+P(B_3)P(A|B_3)}P(B1∣A)=AP(AB1)=P(B1)P(A∣B1)+P(B2)P(A∣B2)+P(B3)P(A∣B3)P(B1)P(A∣B1)

依次取样模型(抽签次序无关性)

一批产品共 N 件,其中共有 M 件次品,每次从中任取一件,取出后不放回,接连取 k 件产品,求第 k 次取得次品的概率 ------ MN\frac{M}{N}NM

几何概型

P(A)=μ(s)μ(S)P(A)=\frac{μ(s)}{μ(S)}P(A)=μ(S)μ(s),μ表示几何度量

一个好用的公式

P(A1UA2U...UAn)=1−P(A1‾)P(A2‾)...P(An‾)P(A_1UA_2U...UA_n)=1-P(\overline{A_1})P(\overline{A_2})...P(\overline{A_n})P(A1UA2U...UAn)=1−P(A1)P(A2)...P(An)

随机变量

一些特殊的分布

两点分布

  1. P(X=1)=pP(X=1)=pP(X=1)=p
  2. P(X=0)=1−pP(X=0)=1-pP(X=0)=1−p
  3. E(X)=pE(X)=pE(X)=p
  4. D(X)=p(1−p)D(X)=p(1-p)D(X)=p(1−p)

二项分布

  1. XXX~B(n,p)B(n,p)B(n,p)
  2. P(X=k)=Cnkpk(1−p)n−kP(X=k)=C_n^kp^k(1-p)^{n-k}P(X=k)=Cnkpk(1−p)n−k
  3. E(X)=npE(X)=npE(X)=np
  4. D(X)=np(1−p)D(X)=np(1-p)D(X)=np(1−p)

二项分布最可能的取值

  1. X∼B(n,p)X \sim B(n, p)X∼B(n,p)(n∈N∗n \in \mathbb{N}^*n∈N∗,0<p<10 < p < 10<p<1)
  2. 若 (n+1)p(n+1)p(n+1)p 不是整数,则最可能取值:k=⌊(n+1)p⌋k = \lfloor (n+1)p \rfloork=⌊(n+1)p⌋(向下取整)
  3. 若 (n+1)p=m(n+1)p = m(n+1)p=m(mmm 为整数),则最可能取值:k=mk = mk=m 和 k=m−1k = m - 1k=m−1

超几何分布

  1. XXX~H(n,M,N)H(n,M,N)H(n,M,N)
  2. P(X=m)=CMmCN−Mn−mCNnP(X=m)=\frac{C_M^mC_{N-M}^{n-m}}{C_N^n}P(X=m)=CNnCMmCN−Mn−m

泊松分布

  1. XXX~P(λ)P(λ)P(λ)
  2. P(X=k)=λkk!e−λP(X=k)=\frac{λ^k}{k!}e^{-λ}P(X=k)=k!λke−λ
  3. E(X)=D(X)=λE(X)=D(X)=λE(X)=D(X)=λ

三大分布的近似表示

  1. 超几何分布 → 二项分布:N→∞N \to \inftyN→∞ 且 nN→0\frac{n}{N} \to 0Nn→0,p=MNp = \frac{M}{N}p=NM,X∼B(n,p)X \sim B(n, p)X∼B(n,p)
  2. 二项分布 → 泊松分布:n→∞n \to \inftyn→∞、p→0p \to 0p→0 且 np=λnp = \lambdanp=λ(常数),X∼P(λ)X \sim P(\lambda)X∼P(λ)
  3. 泊松分布 → 正态分布:λ→∞\lambda \to \inftyλ→∞(通常 λ≥20\lambda \geq 20λ≥20),X∼N(λ,λ)X \sim N(\lambda, \lambda)X∼N(λ,λ)(需连续性修正)

几何分布

  1. XXX~G(p)G(p)G(p),XXX为首次成功所需要的次数
  2. P(X=k)=(1−p)k−1pP(X=k)=(1-p)^{k-1}pP(X=k)=(1−p)k−1p,k=1,2,3,...k=1,2,3,...k=1,2,3,...

均匀分布(连续型)

  1. X∼U(a,b)X \sim U(a, b)X∼U(a,b)(或 X∼Uniform(a,b)X \sim \text{Uniform}(a, b)X∼Uniform(a,b))
  2. 概率密度函数:f(x)={1b−aa≤x≤b0其他f(x) = \begin{cases} \frac{1}{b-a} & a \leq x \leq b \\ 0 & \text{其他} \end{cases}f(x)={b−a10a≤x≤b其他
  3. 期望与方差:E(X)=a+b2E(X) = \frac{a+b}{2}E(X)=2a+b,D(X)=(b−a)212D(X) = \frac{(b-a)^2}{12}D(X)=12(b−a)2

指数分布(连续型)

  1. X∼E(λ)X \sim \text{E}(\lambda)X∼E(λ)(或 X∼Exp(λ)X \sim Exp(\lambda)X∼Exp(λ),λ>0\lambda > 0λ>0 为率参数)
  2. 概率密度函数:f(x)={λe−λxx≥00x<0f(x) = \begin{cases} \lambda e^{-\lambda x} & x \geq 0 \\ 0 & x < 0 \end{cases}f(x)={λe−λx0x≥0x<0
  3. 分布函数(F(x)=P(X≤x)F(x) = P(X \leq x)F(x)=P(X≤x)):F(x)={1−e−λxx≥00x<0F(x) = \begin{cases} 1 - e^{-\lambda x} & x \geq 0 \\ 0 & x < 0 \end{cases}F(x)={1−e−λx0x≥0x<0
  4. 期望与方差:E(X)=1λE(X) = \frac{1}{\lambda}E(X)=λ1,D(X)=1λ2D(X) = \frac{1}{\lambda^2}D(X)=λ21
  5. 无后效性(核心性质):对任意 s>0s > 0s>0、t>0t > 0t>0,满足 P(X>s+t∣X>s)=P(X>t)=e−λtP(X > s + t \mid X > s) = P(X > t) = e^{-\lambda t}P(X>s+t∣X>s)=P(X>t)=e−λt

正态分布(连续型)

  1. X∼N(μ,σ2)X \sim N(\mu, \sigma^2)X∼N(μ,σ2)(或 X∼N(μ,σ2)X \sim \mathcal{N}(\mu, \sigma^2)X∼N(μ,σ2)),μ∈R\mu \in \mathbb{R}μ∈R,σ>0\sigma > 0σ>0
  2. 概率密度函数:f(x)=12πσe−(x−μ)22σ2(x∈R)f(x) = \frac{1}{\sqrt{2\pi}\sigma} e^{-\frac{(x - \mu)^2}{2\sigma^2}} \quad (x \in \mathbb{R})f(x)=2π σ1e−2σ2(x−μ)2(x∈R)
  3. 标准正态分布(X∼N(0,1)X \sim N(0, 1)X∼N(0,1)):
    • 概率密度函数:ϕ(x)=12πe−x22(x∈R)\phi(x) = \frac{1}{\sqrt{2\pi}} e^{-\frac{x^2}{2}} \quad (x \in \mathbb{R})ϕ(x)=2π 1e−2x2(x∈R)
    • 分布函数:Φ(x)=12π∫−∞xe−t22dt(x∈R)\Phi(x) = \frac{1}{\sqrt{2\pi}} \int_{-\infty}^x e^{-\frac{t^2}{2}} dt \quad (x \in \mathbb{R})Φ(x)=2π 1∫−∞xe−2t2dt(x∈R)
  4. 分布函数关系:F(x)=Φ(x−μσ)F(x) = \Phi\left( \frac{x - \mu}{\sigma} \right)F(x)=Φ(σx−μ)

概率分布通用性质

离散型概率分布

设离散型随机变量 X,可能取值为 x1,x2,...x₁, x₂, ...x1,x2,...,概率质量函数P(X=xk)=pkP(X = x_k) = p_kP(X=xk)=pk。

1. 概率质量函数 (PMF) 性质

  • 非负性 :pk≥0(对所有k)pₖ ≥ 0 (对所有 k)pk≥0(对所有k)
  • 规范性 :∑kpk=1∑ₖ pₖ = 1∑kpk=1

2. 分布函数 (CDF) 性质

分布函数定义为:F(x)=P(X≤x)=∑xk≤xpF(x) = P(X ≤ x) = ∑_{xₖ ≤ x} pF(x)=P(X≤x)=∑xk≤xpₖ

满足:

  • 单调不减 :若x1<x2,则F(x1)≤F(x2)若 x₁ < x₂,则 F(x₁) ≤ F(x₂)若x1<x2,则F(x1)≤F(x2)
  • 极限性质 :limx→−∞F(x)=0,limx→+∞F(x)=1lim_{x→−∞} F(x) = 0,lim_{x→+∞} F(x) = 1limx→−∞F(x)=0,limx→+∞F(x)=1
  • 右连续性 :F(x)是右连续函数F(x)是右连续函数F(x)是右连续函数
  • 跳跃性 :在每个可能取值xk处,F(x)有跳跃,跳跃高度为pk在每个可能取值 xₖ 处,F(x) 有跳跃,跳跃高度为 pₖ在每个可能取值xk处,F(x)有跳跃,跳跃高度为pk

连续型概率分布

设连续型随机变量 X,概率密度函数 (PDF) 为 f(x),分布函数 (CDF) 为 F(x)。

1. 概率密度函数 (PDF) 性质

  • 非负性 :f(x)≥0(对所有x∈R)f(x) ≥ 0 (对所有 x ∈ ℝ)f(x)≥0(对所有x∈R)
  • 规范性 :∫−∞+∞f(x)dx=1∫_{-∞}^{+∞} f(x) dx = 1∫−∞+∞f(x)dx=1

2. 分布函数 (CDF) 性质

分布函数定义为:F(x)=P(X≤x)=∫−∞xf(t)dtF(x) = P(X ≤ x) = ∫_{-∞}^{x} f(t) dtF(x)=P(X≤x)=∫−∞xf(t)dt

满足:

  • 单调不减 :若x1<x2,则F(x1)≤F(x2)若 x₁ < x₂,则 F(x₁) ≤ F(x₂)若x1<x2,则F(x1)≤F(x2)
  • 极限性质 :limx→−∞F(x)=0,limx→+∞F(x)=1lim_{x→−∞} F(x) = 0,lim_{x→+∞} F(x) = 1limx→−∞F(x)=0,limx→+∞F(x)=1
  • 处处连续 :F(x)是连续函数F(x) 是连续函数F(x)是连续函数
  • 可导性 :在f(x)的连续点处,F′(x)=f(x)在 f(x) 的连续点处,F′(x) = f(x)在f(x)的连续点处,F′(x)=f(x)

3. 概率计算特性

  • 对任意区间 [a, b]:P(a≤X≤b)=F(b)−F(a)=∫abf(x)dxP(a ≤ X ≤ b) = F(b) - F(a) = ∫_{a}^{b} f(x) dxP(a≤X≤b)=F(b)−F(a)=∫abf(x)dx
  • 单点概率为零 :P(X=c)=0(对任意常数c)P(X = c) = 0 (对任意常数 c)P(X=c)=0(对任意常数c)

二维随机变量概率分布

一、离散型二维随机变量

设二维离散型随机变量(X,Y)(X,Y)(X,Y),可能取值为(xi,yj)(x_i,y_j)(xi,yj),i,j=1,2,...i,j=1,2,\dotsi,j=1,2,...

1. 联合分布

联合概率质量函数
P(X=xi,Y=yj)=pij,i,j=1,2,...P(X=x_i, Y=y_j)=p_{ij}, \quad i,j=1,2,\dotsP(X=xi,Y=yj)=pij,i,j=1,2,...

性质

  • 非负性:pij≥0p_{ij} \geq 0pij≥0
  • 规范性:∑i∑jpij=1\sum_i \sum_j p_{ij} = 1∑i∑jpij=1

2. 边缘分布

边缘概率质量函数
P(X=xi)=pi⋅=∑j=1∞pijP(X=x_i) = p_{i\cdot} = \sum_{j=1}^\infty p_{ij}P(X=xi)=pi⋅=j=1∑∞pij
P(Y=yj)=p⋅j=∑i=1∞pijP(Y=y_j) = p_{\cdot j} = \sum_{i=1}^\infty p_{ij}P(Y=yj)=p⋅j=i=1∑∞pij

3. 条件分布

条件概率质量函数
P(X=xi∣Y=yj)=pijp⋅j,p⋅j>0P(Y=yj∣X=xi)=pijpi⋅,pi⋅>0 \begin{aligned} P(X=x_i | Y=y_j) &= \frac{p_{ij}}{p_{\cdot j}}, \quad p_{\cdot j} > 0 \\ P(Y=y_j | X=x_i) &= \frac{p_{ij}}{p_{i\cdot}}, \quad p_{i\cdot} > 0 \end{aligned} P(X=xi∣Y=yj)P(Y=yj∣X=xi)=p⋅jpij,p⋅j>0=pi⋅pij,pi⋅>0

4. 独立性

XXX与YYY相互独立的充要条件
pij=pi⋅⋅p⋅j对所有 i,jp_{ij} = p_{i\cdot} \cdot p_{\cdot j} \quad \text{对所有} \ i,jpij=pi⋅⋅p⋅j对所有 i,j


二、连续型二维随机变量

设二维连续型随机变量(X,Y)(X,Y)(X,Y)

1. 联合分布

联合概率密度函数
f(x,y)(−∞<x,y<∞)f(x,y) \quad (-\infty < x,y < \infty)f(x,y)(−∞<x,y<∞)

性质

  • 非负性:f(x,y)≥0f(x,y) \geq 0f(x,y)≥0
  • 规范性:∫−∞+∞∫−∞+∞f(x,y)dxdy=1\int_{-\infty}^{+\infty} \int_{-\infty}^{+\infty} f(x,y) dxdy = 1∫−∞+∞∫−∞+∞f(x,y)dxdy=1

分布函数
F(x,y)=P(X≤x,Y≤y)=∫−∞x∫−∞yf(u,v)dudvF(x,y) = P(X \leq x, Y \leq y) = \int_{-\infty}^x \int_{-\infty}^y f(u,v) dudvF(x,y)=P(X≤x,Y≤y)=∫−∞x∫−∞yf(u,v)dudv

分布函数性质

  • F(−∞,y)=F(x,−∞)=0F(-\infty, y) = F(x, -\infty) = 0F(−∞,y)=F(x,−∞)=0
  • F(+∞,+∞)=1F(+\infty, +\infty) = 1F(+∞,+∞)=1
  • 单调性:对每个变量单调不减
  • 右连续性:对每个变量右连续

2. 边缘分布

边缘概率密度函数
fX(x)=∫−∞+∞f(x,y)dyfY(y)=∫−∞+∞f(x,y)dx \begin{aligned} f_X(x) &= \int_{-\infty}^{+\infty} f(x,y) dy \\ f_Y(y) &= \int_{-\infty}^{+\infty} f(x,y) dx \end{aligned} fX(x)fY(y)=∫−∞+∞f(x,y)dy=∫−∞+∞f(x,y)dx

边缘分布函数
FX(x)=P(X≤x)=F(x,+∞)FY(y)=P(Y≤y)=F(+∞,y) \begin{aligned} F_X(x) &= P(X \leq x) = F(x, +\infty) \\ F_Y(y) &= P(Y \leq y) = F(+\infty, y) \end{aligned} FX(x)FY(y)=P(X≤x)=F(x,+∞)=P(Y≤y)=F(+∞,y)

3. 条件分布

条件概率密度函数
fX∣Y(x∣y)=f(x,y)fY(y),fY(y)>0fY∣X(y∣x)=f(x,y)fX(x),fX(x)>0 \begin{aligned} f_{X|Y}(x|y) &= \frac{f(x,y)}{f_Y(y)}, \quad f_Y(y) > 0 \\ f_{Y|X}(y|x) &= \frac{f(x,y)}{f_X(x)}, \quad f_X(x) > 0 \end{aligned} fX∣Y(x∣y)fY∣X(y∣x)=fY(y)f(x,y),fY(y)>0=fX(x)f(x,y),fX(x)>0

条件分布函数
FX∣Y(x∣y)=P(X≤x∣Y=y)=∫−∞xf(u,y)fY(y)duF_{X|Y}(x|y) = P(X \leq x | Y=y) = \int_{-\infty}^x \frac{f(u,y)}{f_Y(y)} duFX∣Y(x∣y)=P(X≤x∣Y=y)=∫−∞xfY(y)f(u,y)du

4. 独立性

XXX与YYY相互独立的充要条件(以下三条件等价):

  1. 联合分布函数可分解:
    F(x,y)=FX(x)⋅FY(y)对所有 x,yF(x,y) = F_X(x) \cdot F_Y(y) \quad \text{对所有} \ x,yF(x,y)=FX(x)⋅FY(y)对所有 x,y

  2. 联合密度函数可分解:
    f(x,y)=fX(x)⋅fY(y)几乎处处成立f(x,y) = f_X(x) \cdot f_Y(y) \quad \text{几乎处处成立}f(x,y)=fX(x)⋅fY(y)几乎处处成立

  3. 条件分布等于边缘分布:
    fX∣Y(x∣y)=fX(x)或fY∣X(y∣x)=fY(y) \begin{aligned} f_{X|Y}(x|y) &= f_X(x) \quad \text{或} \\ f_{Y|X}(y|x) &= f_Y(y) \end{aligned} fX∣Y(x∣y)fY∣X(y∣x)=fX(x)或=fY(y)


三、混合型二维随机变量

若XXX离散而YYY连续(或反之),则有混合分布:

联合分布 (XXX离散,YYY连续):
P(X=xi,Y∈B)=∫BfY∣X(y∣xi)P(X=xi)dyP(X=x_i, Y \in B) = \int_B f_{Y|X}(y|x_i) P(X=x_i) dyP(X=xi,Y∈B)=∫BfY∣X(y∣xi)P(X=xi)dy

边缘分布
fY(y)=∑ifY∣X(y∣xi)P(X=xi)f_Y(y) = \sum_i f_{Y|X}(y|x_i) P(X=x_i)fY(y)=i∑fY∣X(y∣xi)P(X=xi)

独立性条件
fY∣X(y∣xi)=fY(y)对所有 i,yf_{Y|X}(y|x_i) = f_Y(y) \quad \text{对所有} \ i,yfY∣X(y∣xi)=fY(y)对所有 i,y


四、二维随机变量函数的分布

1. 离散型情形

设Z=g(X,Y)Z=g(X,Y)Z=g(X,Y),则:
P(Z=zk)=∑(xi,yj):g(xi,yj)=zkpijP(Z=z_k) = \sum_{(x_i,y_j): g(x_i,y_j)=z_k} p_{ij}P(Z=zk)=(xi,yj):g(xi,yj)=zk∑pij

2. 连续型情形

设Z=g(X,Y)Z=g(X,Y)Z=g(X,Y):

分布函数法
FZ(z)=P(Z≤z)=∬g(x,y)≤zf(x,y)dxdyF_Z(z) = P(Z \leq z) = \iint_{g(x,y) \leq z} f(x,y) dxdyFZ(z)=P(Z≤z)=∬g(x,y)≤zf(x,y)dxdy

卷积公式 (和Z=X+YZ=X+YZ=X+Y):
fZ(z)=∫−∞+∞f(x,z−x)dx=∫−∞+∞f(z−y,y)dy \begin{aligned} f_Z(z) &= \int_{-\infty}^{+\infty} f(x,z-x) dx \\ &= \int_{-\infty}^{+\infty} f(z-y,y) dy \end{aligned} fZ(z)=∫−∞+∞f(x,z−x)dx=∫−∞+∞f(z−y,y)dy

极值分布
Fmax⁡(z)=P(max⁡(X,Y)≤z)=F(z,z)Fmin⁡(z)=P(min⁡(X,Y)≤z)=1−P(X>z,Y>z) \begin{aligned} F_{\max}(z) &= P(\max(X,Y) \leq z) = F(z,z) \\ F_{\min}(z) &= P(\min(X,Y) \leq z) = 1 - P(X>z, Y>z) \end{aligned} Fmax(z)Fmin(z)=P(max(X,Y)≤z)=F(z,z)=P(min(X,Y)≤z)=1−P(X>z,Y>z)


五、重要性质总结

性质 离散型 连续型
表示形式 概率质量函数pijp_{ij}pij 概率密度函数f(x,y)f(x,y)f(x,y)
规范性 ∑i∑jpij=1\sum_i \sum_j p_{ij} = 1∑i∑jpij=1 ∬f(x,y)dxdy=1\iint f(x,y) dxdy = 1∬f(x,y)dxdy=1
边缘分布 pi⋅=∑jpijp_{i\cdot} = \sum_j p_{ij}pi⋅=∑jpij fX(x)=∫f(x,y)dyf_X(x) = \int f(x,y) dyfX(x)=∫f(x,y)dy
边缘分布 p⋅j=∑ipijp_{\cdot j} = \sum_i p_{ij}p⋅j=∑ipij fY(y)=∫f(x,y)dxf_Y(y) = \int f(x,y) dxfY(y)=∫f(x,y)dx
条件分布 P(X=xi∣Y=yj)=pijp⋅jP(X=x_i | Y=y_j) = \frac{p_{ij}}{p_{\cdot j}}P(X=xi∣Y=yj)=p⋅jpij fX∣Y(x∣y)=f(x,y)fY(y)f_{X|Y}(x|y) = \frac{f(x,y)}{f_Y(y)}fX∣Y(x∣y)=fY(y)f(x,y)
条件分布 P(Y=yj∣X=xi)=pijpi⋅P(Y=y_j | X=x_i) = \frac{p_{ij}}{p_{i\cdot}}P(Y=yj∣X=xi)=pi⋅pij fY∣X(y∣x)=f(x,y)fX(x)f_{Y|X}(y|x) = \frac{f(x,y)}{f_X(x)}fY∣X(y∣x)=fX(x)f(x,y)
独立性 pij=pi⋅p⋅jp_{ij} = p_{i\cdot} p_{\cdot j}pij=pi⋅p⋅j f(x,y)=fX(x)fY(y)f(x,y) = f_X(x) f_Y(y)f(x,y)=fX(x)fY(y)
分布函数 F(x,y)=∑xi≤x∑yj≤ypijF(x,y) = \sum_{x_i \leq x} \sum_{y_j \leq y} p_{ij}F(x,y)=∑xi≤x∑yj≤ypij F(x,y)=∫−∞x∫−∞yf(u,v)dudvF(x,y) = \int_{-\infty}^x \int_{-\infty}^y f(u,v) dudvF(x,y)=∫−∞x∫−∞yf(u,v)dudv

随机变量的数字特征

一、数学期望(均值)

1. 离散型随机变量

设XXX的分布律为P(X=xk)=pkP(X=x_k)=p_kP(X=xk)=pk, k=1,2,...k=1,2,\dotsk=1,2,...
E(X)=∑k=1∞xkpkE(X)=\sum_{k=1}^{\infty} x_k p_kE(X)=k=1∑∞xkpk

2. 连续型随机变量

设XXX的概率密度为f(x)f(x)f(x)
E(X)=∫−∞+∞xf(x)dxE(X)=\int_{-\infty}^{+\infty} x f(x) dxE(X)=∫−∞+∞xf(x)dx

3. 随机变量函数的期望

  • Y=g(X)Y=g(X)Y=g(X):
    • 离散:E(Y)=∑kg(xk)pkE(Y)=\sum_k g(x_k) p_kE(Y)=∑kg(xk)pk
    • 连续:E(Y)=∫−∞+∞g(x)f(x)dxE(Y)=\int_{-\infty}^{+\infty} g(x) f(x) dxE(Y)=∫−∞+∞g(x)f(x)dx
  • Z=g(X,Y)Z=g(X,Y)Z=g(X,Y):
    • 离散:E(Z)=∑i∑jg(xi,yj)pijE(Z)=\sum_i \sum_j g(x_i,y_j) p_{ij}E(Z)=∑i∑jg(xi,yj)pij
    • 连续:E(Z)=∫−∞+∞∫−∞+∞g(x,y)f(x,y)dxdyE(Z)=\int_{-\infty}^{+\infty} \int_{-\infty}^{+\infty} g(x,y) f(x,y) dxdyE(Z)=∫−∞+∞∫−∞+∞g(x,y)f(x,y)dxdy

4. 期望的性质

  1. 线性性:E(aX+bY+c)=aE(X)+bE(Y)+cE(aX+bY+c)=aE(X)+bE(Y)+cE(aX+bY+c)=aE(X)+bE(Y)+c
  2. 若X,YX,YX,Y独立,则E(XY)=E(X)E(Y)E(XY)=E(X)E(Y)E(XY)=E(X)E(Y)
  3. ∣E(X)∣≤E(∣X∣)|E(X)| \leq E(|X|)∣E(X)∣≤E(∣X∣)

二、方差

1. 定义

D(X)=Var(X)=E[(X−E(X))2]=E(X2)−[E(X)]2D(X)=Var(X)=E[(X-E(X))^2]=E(X^2)-[E(X)]^2D(X)=Var(X)=E[(X−E(X))2]=E(X2)−[E(X)]2

2. 计算

  • 离散:D(X)=∑k[xk−E(X)]2pkD(X)=\sum_k [x_k-E(X)]^2 p_kD(X)=∑k[xk−E(X)]2pk
  • 连续:D(X)=∫−∞+∞[x−E(X)]2f(x)dxD(X)=\int_{-\infty}^{+\infty} [x-E(X)]^2 f(x) dxD(X)=∫−∞+∞[x−E(X)]2f(x)dx

3. 标准差

σ(X)=D(X)\sigma(X)=\sqrt{D(X)}σ(X)=D(X)

4. 方差的性质

  1. D(c)=0D(c)=0D(c)=0(ccc为常数)
  2. D(aX+b)=a2D(X)D(aX+b)=a^2 D(X)D(aX+b)=a2D(X)
  3. 若X,YX,YX,Y独立,则D(X+Y)=D(X)+D(Y)D(X+Y)=D(X)+D(Y)D(X+Y)=D(X)+D(Y)
  4. D(X)=0⇔P(X=c)=1D(X)=0 \Leftrightarrow P(X=c)=1D(X)=0⇔P(X=c)=1(ccc为常数)
  5. D(X)≤E[(X−c)2]D(X) \leq E[(X-c)^2]D(X)≤E[(X−c)2],等号成立当c=E(X)c=E(X)c=E(X)

三、协方差与相关系数

1. 协方差

定义
Cov(X,Y)=E[(X−E(X))(Y−E(Y))]=E(XY)−E(X)E(Y)Cov(X,Y)=E[(X-E(X))(Y-E(Y))]=E(XY)-E(X)E(Y)Cov(X,Y)=E[(X−E(X))(Y−E(Y))]=E(XY)−E(X)E(Y)

性质

  1. Cov(X,Y)=Cov(Y,X)Cov(X,Y)=Cov(Y,X)Cov(X,Y)=Cov(Y,X)
  2. Cov(aX+b,cY+d)=ac⋅Cov(X,Y)Cov(aX+b,cY+d)=ac\cdot Cov(X,Y)Cov(aX+b,cY+d)=ac⋅Cov(X,Y)
  3. Cov(X1+X2,Y)=Cov(X1,Y)+Cov(X2,Y)Cov(X_1+X_2,Y)=Cov(X_1,Y)+Cov(X_2,Y)Cov(X1+X2,Y)=Cov(X1,Y)+Cov(X2,Y)
  4. 若X,YX,YX,Y独立,则Cov(X,Y)=0Cov(X,Y)=0Cov(X,Y)=0(反之不成立)
  5. D(X+Y)=D(X)+D(Y)+2Cov(X,Y)D(X+Y)=D(X)+D(Y)+2Cov(X,Y)D(X+Y)=D(X)+D(Y)+2Cov(X,Y)
  6. D(∑i=1nXi)=∑i=1nD(Xi)+2∑1≤i<j≤nCov(Xi,Xj)D(\sum_{i=1}^n X_i)=\sum_{i=1}^n D(X_i)+2\sum_{1\leq i<j\leq n} Cov(X_i,X_j)D(∑i=1nXi)=∑i=1nD(Xi)+2∑1≤i<j≤nCov(Xi,Xj)

2. 相关系数

定义
ρXY=Cov(X,Y)D(X)D(Y)\rho_{XY}=\frac{Cov(X,Y)}{\sqrt{D(X)}\sqrt{D(Y)}}ρXY=D(X) D(Y) Cov(X,Y)

性质

  1. ∣ρXY∣≤1|\rho_{XY}| \leq 1∣ρXY∣≤1
  2. ∣ρXY∣=1⇔|\rho_{XY}|=1 \Leftrightarrow∣ρXY∣=1⇔存在常数a,ba,ba,b使P(Y=aX+b)=1P(Y=aX+b)=1P(Y=aX+b)=1
  3. ρXY=0\rho_{XY}=0ρXY=0时称X,YX,YX,Y不相关
  4. 若X,YX,YX,Y独立,则ρXY=0\rho_{XY}=0ρXY=0(反之不成立)

四、矩

1. kkk阶原点矩

αk=E(Xk)\alpha_k=E(X^k)αk=E(Xk)

2. kkk阶中心矩

μk=E[(X−E(X))k]\mu_k=E[(X-E(X))^k]μk=E[(X−E(X))k]

3. 常用矩

  • 一阶原点矩:均值α1=E(X)\alpha_1=E(X)α1=E(X)
  • 二阶中心矩:方差μ2=D(X)\mu_2=D(X)μ2=D(X)
  • 三阶中心矩:衡量偏度
  • 四阶中心矩:衡量峰度

五、切比雪夫不等式

1. 基本形式

对任意ε>0\varepsilon>0ε>0,
P(∣X−E(X)∣≥ε)≤D(X)ε2P(|X-E(X)| \geq \varepsilon) \leq \frac{D(X)}{\varepsilon^2}P(∣X−E(X)∣≥ε)≤ε2D(X)

2. 等价形式

P(∣X−E(X)∣<ε)≥1−D(X)ε2P(|X-E(X)| < \varepsilon) \geq 1-\frac{D(X)}{\varepsilon^2}P(∣X−E(X)∣<ε)≥1−ε2D(X)

3. 意义

  • 给出了随机变量偏离其均值的概率上界
  • 只需知道期望和方差,无需知道具体分布
  • 估计比较粗糙,但适用性广

六、大数定律

1. 切比雪夫大数定律

设X1,X2,...X_1,X_2,\dotsX1,X2,...相互独立,D(Xi)≤CD(X_i) \leq CD(Xi)≤C(常数),则对任意ε>0\varepsilon>0ε>0:
lim⁡n→∞P(∣1n∑i=1nXi−1n∑i=1nE(Xi)∣<ε)=1\lim_{n\to\infty} P\left(\left|\frac{1}{n}\sum_{i=1}^n X_i - \frac{1}{n}\sum_{i=1}^n E(X_i)\right| < \varepsilon\right)=1n→∞limP( n1i=1∑nXi−n1i=1∑nE(Xi) <ε)=1

2. 伯努利大数定律

设nAn_AnA为nnn重伯努利试验中事件AAA发生的次数,p=P(A)p=P(A)p=P(A),则对任意ε>0\varepsilon>0ε>0:
lim⁡n→∞P(∣nAn−p∣<ε)=1\lim_{n\to\infty} P\left(\left|\frac{n_A}{n}-p\right| < \varepsilon\right)=1n→∞limP( nnA−p <ε)=1

3. 辛钦大数定律(独立同分布)

设X1,X2,...X_1,X_2,\dotsX1,X2,...独立同分布,E(Xi)=μE(X_i)=\muE(Xi)=μ,则对任意ε>0\varepsilon>0ε>0:
lim⁡n→∞P(∣1n∑i=1nXi−μ∣<ε)=1\lim_{n\to\infty} P\left(\left|\frac{1}{n}\sum_{i=1}^n X_i - \mu\right| < \varepsilon\right)=1n→∞limP( n1i=1∑nXi−μ <ε)=1

4. 大数定律的意义

  • 大量随机变量的算术平均具有稳定性
  • 频率的稳定性是概率的客观基础
  • 为用样本均值估计总体均值提供理论依据

七、中心极限定理

1. 独立同分布情形(林德伯格-列维定理)

设X1,X2,...X_1,X_2,\dotsX1,X2,...独立同分布,E(Xi)=μE(X_i)=\muE(Xi)=μ,D(Xi)=σ2>0D(X_i)=\sigma^2>0D(Xi)=σ2>0,则:
lim⁡n→∞P(∑i=1nXi−nμnσ≤x)=Φ(x)\lim_{n\to\infty} P\left(\frac{\sum_{i=1}^n X_i - n\mu}{\sqrt{n}\sigma} \leq x\right)=\Phi(x)n→∞limP(n σ∑i=1nXi−nμ≤x)=Φ(x)

其中Φ(x)\Phi(x)Φ(x)为标准正态分布函数。

2. 棣莫弗-拉普拉斯定理(二项分布的正态近似)

设Yn∼B(n,p)Y_n \sim B(n,p)Yn∼B(n,p),则当nnn充分大时:
Yn−npnp(1−p)→dN(0,1)\frac{Y_n-np}{\sqrt{np(1-p)}} \xrightarrow{d} N(0,1)np(1−p) Yn−npd N(0,1)

即:
P(Yn−npnp(1−p)≤x)≈Φ(x)P\left(\frac{Y_n-np}{\sqrt{np(1-p)}} \leq x\right) \approx \Phi(x)P(np(1−p) Yn−np≤x)≈Φ(x)

3. 中心极限定理的意义

  • 无论总体分布如何,只要样本量足够大,样本均值的分布近似正态
  • 解释了为什么正态分布在自然界中如此普遍
  • 为统计推断(如参数估计、假设检验)提供理论基础

八、重要结论与比较

1. 独立、不相关、正交的关系

  • 独立 ⇒\Rightarrow⇒ 不相关(ρ=0\rho=0ρ=0)
  • 不相关 ⇏\not\Rightarrow⇒ 独立
  • 若E(XY)=0E(XY)=0E(XY)=0,称X,YX,YX,Y正交
  • 若E(X)=E(Y)=0E(X)=E(Y)=0E(X)=E(Y)=0,则不相关与正交等价

2. 矩与数字特征的关系

数字特征 用矩表示
期望E(X)E(X)E(X) α1\alpha_1α1
方差D(X)D(X)D(X) α2−α12\alpha_2-\alpha_1^2α2−α12
协方差Cov(X,Y)Cov(X,Y)Cov(X,Y) E(XY)−E(X)E(Y)E(XY)-E(X)E(Y)E(XY)−E(X)E(Y)

3. 大数定律vs中心极限定理

特点 大数定律 中心极限定理
核心 收敛到常数 收敛到分布
极限 Xˉn→μ\bar{X}_n \to \muXˉn→μ(依概率) Xˉn−μσ/n→N(0,1)\frac{\bar{X}_n-\mu}{\sigma/\sqrt{n}} \to N(0,1)σ/n Xˉn−μ→N(0,1)(依分布)
用途 证明稳定性 近似计算概率
条件 矩条件较弱 需要二阶矩存在

4. 应用要点

  1. 期望:描述随机变量的平均取值
  2. 方差:描述随机变量取值的分散程度
  3. 协方差与相关系数:描述两个随机变量的线性相关程度
  4. 切比雪夫不等式:概率界的"马尔可夫不等式",用于概率估计
  5. 大数定律:为频率趋近概率提供理论保证
  6. 中心极限定理:为基于正态分布的统计推断提供理论依据
相关推荐
雪不下20 小时前
计算机中的数学:概率(6)
人工智能·机器学习·概率论
黎茗Dawn1 天前
DDPM-明确 [特殊字符] [特殊字符] 系数
概率论
Cathy Bryant1 天前
概率论直觉(三):边缘化
笔记·机器学习·数学建模·概率论
TDengine (老段)2 天前
TDengine 统计函数 VAR_SAMP 用户手册
大数据·数据库·物联网·概率论·时序数据库·tdengine·涛思数据
oscar9992 天前
概率论与数理统计第四章 随机变量的数字特征
概率论·数字特征
杰瑞不懂代码2 天前
【公式推导】AMP算法比BP算法强在哪(一)
python·算法·机器学习·概率论
oscar9993 天前
概率论与数理统计第一章 概率论的基本概念
概率论
oscar9993 天前
概率论与数理统计第二章 随机变量及其分布
概率论·随机变量及其分布
雪不下3 天前
编程中的数学:概率(6)
概率论