概率论基础教程第六章 随机变量的联合分布(一)

第6章 随机变量的联合分布

6.1 联合分布函数

联合分布函数用于多个随机变量同时出现的概率特性。

定义

联合分布

X Y 是两个随机变量,其联合累积分布函数定义为:

F(a,b)=P{X≤a,Y≤b},−∞<a,b<∞ F(a, b) = P\{X \leq a, Y \leq b\}, \quad -\infty < a, b < \infty F(a,b)=P{X≤a,Y≤b},−∞<a,b<∞

该函数描述了 X Y 同时不超过某个值的概率。

边缘分布

从联合分布可以导出单个变量的分布,称为边缘分布

  • 对于 X
    FX(a)=P{X≤a}=lim⁡b→∞F(a,b)≡F(a,∞) F_X(a) = P\{X \leq a\} = \lim_{b \to \infty} F(a, b) \equiv F(a, \infty) FX(a)=P{X≤a}=b→∞limF(a,b)≡F(a,∞)

  • 对于 Y
    FY(b)=P{Y≤b}=lim⁡a→∞F(a,b)≡F(∞,b) F_Y(b) = P\{Y \leq b\} = \lim_{a \to \infty} F(a, b) \equiv F(\infty, b) FY(b)=P{Y≤b}=a→∞limF(a,b)≡F(∞,b)

理论上,所有涉及 X Y 的联合概率都可以通过 F(a,b) 求解。

例如,求 P{X \> a, Y \> b}

P{X>a,Y>b}=1−P({X>a,Y>b}c)=1−P({X≤a}∪{Y≤b})=1−[P{X≤a}+P{Y≤b}−P{X≤a,Y≤b}]=1−FX(a)−FY(b)+F(a,b)(1.1) \begin{array}{rcl} P\{X > a, Y > b\} & = & 1 - P\left(\{X > a, Y > b\}^c\right) \\ & = & 1 - P\left(\{X \leq a\} \cup \{Y \leq b\}\right) \\ & = & 1 - \left[P\{X \leq a\} + P\{Y \leq b\} - P\{X \leq a, Y \leq b\}\right] \\ & = & 1 - F_X(a) - F_Y(b) + F(a, b) \end{array} \tag{1.1} P{X>a,Y>b}====1−P({X>a,Y>b}c)1−P({X≤a}∪{Y≤b})1−[P{X≤a}+P{Y≤b}−P{X≤a,Y≤b}]1−FX(a)−FY(b)+F(a,b)(1.1)

更一般地,对于区间概率:

P{a1≤X≤a2,b1≤Y≤b2}=F(a2,b2)+F(a1,b1)−F(a1,b2)−F(a2,b1)(1.2) P\{a_1 \leq X \leq a_2, b_1 \leq Y \leq b_2\} = F(a_2, b_2) + F(a_1, b_1) - F(a_1, b_2) - F(a_2, b_1) \tag{1.2} P{a1≤X≤a2,b1≤Y≤b2}=F(a2,b2)+F(a1,b1)−F(a1,b2)−F(a2,b1)(1.2)

其中 a_1 \\leq a_2, b_1 \\leq b_2


联合分布列

X Y 均为离散型时,定义其联合概率质量函数(joint PMF)为:

p(x,y)=P{X=x,Y=y} p(x, y) = P\{X = x, Y = y\} p(x,y)=P{X=x,Y=y}

边缘分布列由求和得到:

  • p_X(x) = P{X = x} = \\sum_{y: p(x,y)\>0} p(x,y)
  • p_Y(y) = P{Y = y} = \\sum_{x: p(x,y)\>0} p(x,y)

这些称为边缘分布列(marginal PMF),因其在联合分布表中位于"边缘"位置。


例 1a:抽球问题

坛中有 3 红球、4 白球、5 蓝球,从中随机抽取 3 个球。令 X :红球数,:红球数,:红球数, Y :白球数。

计算联合分布列 p(i,j) = P(X=i, Y=j) ,使用超几何模型:

p(i,j)=(3i)(4j)(53−i−j)(123),其中 i+j≤3 p(i,j) = \frac{\binom{3}{i} \binom{4}{j} \binom{5}{3-i-j}}{\binom{12}{3}}, \quad \text{其中 } i+j \leq 3 p(i,j)=(312)(i3)(j4)(3−i−j5),其中 i+j≤3

具体计算如下:

i \\backslash j 0 1 2 3 行和 = P(X=i)
0 \\frac{10}{220} \\frac{40}{220} \\frac{30}{220} \\frac{4}{220} \\frac{84}{220}
1 \\frac{30}{220} \\frac{60}{220} \\frac{18}{220} 0 \\frac{108}{220}
2 \\frac{15}{220} \\frac{12}{220} 0 0 \\frac{27}{220}
3 \\frac{1}{220} 0 0 0 \\frac{1}{220}
列和 = P(Y=j) \\frac{56}{220} \\frac{112}{220} \\frac{48}{220} \\frac{4}{220}

例 1b:家庭孩子性别分布

某社区家庭子女分布:

  • 无孩:15%
  • 1孩:20%
  • 2孩:35%
  • 3孩:30%

每个孩子为男孩或女孩的概率均为 \\frac{1}{2} ,且独立。

B :男孩数,:男孩数,:男孩数, G :女孩数。

计算联合分布列 P(B=i, G=j)

  • P(B=0, G=0) = P(\\text{无孩}) = 0.15
  • P(B=0, G=1) = P(1\\text{孩}) \\cdot P(\\text{女孩}) = 0.20 \\times \\frac{1}{2} = 0.10
  • P(B=0, G=2) = P(2\\text{孩}) \\cdot P(\\text{两女}) = 0.35 \\times \\left(\\frac{1}{2}\\right)\^2 = 0.0875
  • P(B=0, G=3) = 0.30 \\times \\left(\\frac{1}{2}\\right)\^3 = 0.0375

其余类似(如 P(B=1,G=1) = 0.20 \\times \\frac{1}{2} = 0.10 ,,, P(B=2,G=0) = 0.35 \\times \\frac{1}{4} = 0.0875 ,等等)

结果见下表:

i \\backslash j 0 1 2 3 P(B=i)
0 0.15 0.10 0.0875 0.0375 0.3750
1 0.10 0.175 0.1125 0 0.3875
2 0.0875 0.1125 0 0 0.2000
3 0.0375 0 0 0 0.0375
P(G=j) 0.375 0.3875 0.2000 0.0375

联合密度函数

若存在非负函数 f(x,y) ,使得对任意二维区域 C 有:

P{(X,Y)∈C}=∬(x,y)∈Cf(x,y) dx dy(1.3) P\{(X,Y) \in C\} = \iint_{(x,y)\in C} f(x,y)\,dx\,dy \tag{1.3} P{(X,Y)∈C}=∬(x,y)∈Cf(x,y)dxdy(1.3)

则称 X,Y 联合连续型随机变量 f(x,y) 联合概率密度函数

特别地,若 A,B 为实数集,则:

P{X∈A,Y∈B}=∫B∫Af(x,y) dx dy(1.4) P\{X \in A, Y \in B\} = \int_B \int_A f(x,y)\,dx\,dy \tag{1.4} P{X∈A,Y∈B}=∫B∫Af(x,y)dxdy(1.4)

由联合密度求联合分布函数
F(a,b)=P{X≤a,Y≤b}=∫−∞b∫−∞af(x,y) dx dy F(a,b) = P\{X \leq a, Y \leq b\} = \int_{-\infty}^b \int_{-\infty}^a f(x,y)\,dx\,dy F(a,b)=P{X≤a,Y≤b}=∫−∞b∫−∞af(x,y)dxdy

若偏导数存在,则:

f(a,b)=∂2∂a∂bF(a,b) f(a,b) = \frac{\partial^2}{\partial a \partial b} F(a,b) f(a,b)=∂a∂b∂2F(a,b)

直观理解密度函数

对于很小的 da, db ,有:

P{a<X<a+da,b<Y<b+db}≈f(a,b) da db P\{a < X < a+da, b < Y < b+db\} \approx f(a,b)\,da\,db P{a<X<a+da,b<Y<b+db}≈f(a,b)dadb

f(a,b) 反映了 (X,Y) 在点 (a,b) 附近取值的"可能性密度"。


边缘密度函数
  • X 的边缘密度:
    fX(x)=∫−∞∞f(x,y) dy f_X(x) = \int_{-\infty}^{\infty} f(x,y)\,dy fX(x)=∫−∞∞f(x,y)dy

  • Y 的边缘密度:
    fY(y)=∫−∞∞f(x,y) dx f_Y(y) = \int_{-\infty}^{\infty} f(x,y)\,dx fY(y)=∫−∞∞f(x,y)dx

例 1c:指数型联合密度

X,Y 的联合密度为:

f(x,y)={2e−xe−2y,x>0,y>00,否则 f(x,y) = \begin{cases} 2e^{-x}e^{-2y}, & x > 0, y > 0 \\ 0, & \text{否则} \end{cases} f(x,y)={2e−xe−2y,0,x>0,y>0否则

求:

(a) P(X \> 1, Y \< 1)
P(X>1,Y<1)=∫01∫1∞2e−xe−2y dx dy=∫012e−2y[−e−x]1∞dy=∫012e−2ye−1dy=e−1∫012e−2ydy=e−1(1−e−2) \begin{aligned} P(X > 1, Y < 1) &= \int_0^1 \int_1^\infty 2e^{-x}e^{-2y}\,dx\,dy \\ &= \int_0^1 2e^{-2y} \left[ -e^{-x} \right]_1^\infty dy = \int_0^1 2e^{-2y} e^{-1} dy \\ &= e^{-1} \int_0^1 2e^{-2y} dy = e^{-1}(1 - e^{-2}) \end{aligned} P(X>1,Y<1)=∫01∫1∞2e−xe−2ydxdy=∫012e−2y[−e−x]1∞dy=∫012e−2ye−1dy=e−1∫012e−2ydy=e−1(1−e−2)

(b) P(X \\leq Y)

P(X≤Y)=∬x≤y2e−xe−2ydxdy=∫0∞∫0y2e−xe−2ydxdy=∫0∞2e−2y(1−e−y)dy=∫0∞2e−2ydy−∫0∞2e−3ydy=1−23=13 \begin{aligned} P(X \leq Y) &= \iint_{x \leq y} 2e^{-x}e^{-2y} dx dy \\ &= \int_0^\infty \int_0^y 2e^{-x}e^{-2y} dx dy = \int_0^\infty 2e^{-2y}(1 - e^{-y}) dy \\ &= \int_0^\infty 2e^{-2y} dy - \int_0^\infty 2e^{-3y} dy = 1 - \frac{2}{3} = \frac{1}{3} \end{aligned} P(X≤Y)=∬x≤y2e−xe−2ydxdy=∫0∞∫0y2e−xe−2ydxdy=∫0∞2e−2y(1−e−y)dy=∫0∞2e−2ydy−∫0∞2e−3ydy=1−32=31

© P(X \< a)

P(X<a)=∫0a∫0∞2e−xe−2ydydx=∫0ae−x(∫0∞2e−2ydy)dx=∫0ae−x⋅1 dx=1−e−a \begin{aligned} P(X < a) &= \int_0^a \int_0^\infty 2e^{-x}e^{-2y} dy dx \\ &= \int_0^a e^{-x} \left( \int_0^\infty 2e^{-2y} dy \right) dx = \int_0^a e^{-x} \cdot 1\,dx = 1 - e^{-a} \end{aligned} P(X<a)=∫0a∫0∞2e−xe−2ydydx=∫0ae−x(∫0∞2e−2ydy)dx=∫0ae−x⋅1dx=1−e−a

例 1d:圆内均匀分布

在半径为 R 的圆内随机选一点,服从均匀分布。

(X,Y) 为坐标,则联合密度:

f(x,y)={c,x2+y2≤R20,否则 f(x,y) = \begin{cases} c, & x^2 + y^2 \leq R^2 \\ 0, & \text{否则} \end{cases} f(x,y)={c,0,x2+y2≤R2否则

(a) 求常数 c

!NOTE

对于平面上的一个区域 D \\subset \\mathbb{R}\^2 ,其面积可以用二重积分表示为:

Area(D)=∬D1 dx dy \text{Area}(D) = \iint_D 1 \, dx\,dy Area(D)=∬D1dxdy

也就是说:在整个区域上对常数函数 1 积分,结果就是该区域的面积

所以:

∬x2+y2≤R2dx dy=以原点为中心、半径为 R 的圆的面积=πR2 \iint_{x^2 + y^2 \leq R^2} dx\,dy = \text{以原点为中心、半径为 } R \text{ 的圆的面积} = \pi R^2 ∬x2+y2≤R2dxdy=以原点为中心、半径为 R 的圆的面积=πR2

∬x2+y2≤R2c dx dy=c⋅πR2=1⇒c=1πR2 \iint_{x^2+y^2 \leq R^2} c\,dx\,dy = c \cdot \pi R^2 = 1 \Rightarrow c = \frac{1}{\pi R^2} ∬x2+y2≤R2cdxdy=c⋅πR2=1⇒c=πR21

(b) 边缘密度 f_X(x)
fX(x)=∫−R2−x2R2−x21πR2dy=2πR2R2−x2,∣x∣≤R f_X(x) = \int_{-\sqrt{R^2 - x^2}}^{\sqrt{R^2 - x^2}} \frac{1}{\pi R^2} dy = \frac{2}{\pi R^2} \sqrt{R^2 - x^2}, \quad |x| \leq R fX(x)=∫−R2−x2 R2−x2 πR21dy=πR22R2−x2 ,∣x∣≤R

同理, f_Y(y) = \\frac{2}{\\pi R\^2} \\sqrt{R\^2 - y\^2},\\ \|y\| \\leq R

!NOTE

边缘密度 f_X(x) 是通过对联合密度 f(x,y) 关于 y 积分得到的:

fX(x)=∫−∞∞f(x,y) dy f_X(x) = \int_{-\infty}^{\infty} f(x, y)\, dy fX(x)=∫−∞∞f(x,y)dy

但由于 f(x,y) 只在圆 x\^2 + y\^2 \\leq R\^2 内非零,所以我们只需要对满足这个条件的 y 积分。

对于一个固定的 x ,要使得 (x, y) 落在圆内,必须满足:

x2+y2≤R2⇒y2≤R2−x2⇒∣y∣≤R2−x2 x^2 + y^2 \leq R^2 \quad \Rightarrow \quad y^2 \leq R^2 - x^2 \quad \Rightarrow \quad |y| \leq \sqrt{R^2 - x^2} x2+y2≤R2⇒y2≤R2−x2⇒∣y∣≤R2−x2

所以:

  • \|x\| \> R :没有 y 满足条件 → f_X(x) = 0
  • \|x\| \\leq R ::: y \\in \\left\[ -\\sqrt{R\^2 - x^2}, \\sqrt{R^2 - x\^2} \\right\]

情况 1:当 \|x\| \> R
fX(x)=0 f_X(x) = 0 fX(x)=0

因为联合密度在这些 x 处恒为 0。

情况 2:当 \|x\| \\leq R
fX(x)=∫−∞∞f(x,y) dy=∫y=−R2−x2R2−x21πR2 dy(因为在该区间内 f(x,y)=1πR2)=1πR2⋅[y]y=−R2−x2R2−x2=1πR2⋅(R2−x2−(−R2−x2))=1πR2⋅2R2−x2=2πR2R2−x2 \begin{aligned} f_X(x) &= \int_{-\infty}^{\infty} f(x, y)\, dy \\ &= \int_{y = -\sqrt{R^2 - x^2}}^{\sqrt{R^2 - x^2}} \frac{1}{\pi R^2}\, dy \quad \text{(因为在该区间内 } f(x,y) = \frac{1}{\pi R^2} \text{)} \\ &= \frac{1}{\pi R^2} \cdot \left[ y \right]_{y = -\sqrt{R^2 - x^2}}^{\sqrt{R^2 - x^2}} \\ &= \frac{1}{\pi R^2} \cdot \left( \sqrt{R^2 - x^2} - (-\sqrt{R^2 - x^2}) \right) \\ &= \frac{1}{\pi R^2} \cdot 2\sqrt{R^2 - x^2} \\ &= \frac{2}{\pi R^2} \sqrt{R^2 - x^2} \end{aligned} fX(x)=∫−∞∞f(x,y)dy=∫y=−R2−x2 R2−x2 πR21dy(因为在该区间内 f(x,y)=πR21)=πR21⋅[y]y=−R2−x2 R2−x2 =πR21⋅(R2−x2 −(−R2−x2 ))=πR21⋅2R2−x2 =πR22R2−x2

综上:
fX(x)={2πR2R2−x2,∣x∣≤R0,∣x∣>R f_X(x) = \begin{cases} \displaystyle \frac{2}{\pi R^2} \sqrt{R^2 - x^2}, & |x| \leq R \\ 0, & |x| > R \end{cases} fX(x)=⎩ ⎨ ⎧πR22R2−x2 ,0,∣x∣≤R∣x∣>R

© 原点距离 D = \\sqrt{X\^2 + Y\^2} 的分布:
FD(a)=P(D≤a)=P(X2+Y2≤a2)=πa2πR2=a2R2,0≤a≤R F_D(a) = P(D \leq a) = P(X^2 + Y^2 \leq a^2) = \frac{\pi a^2}{\pi R^2} = \frac{a^2}{R^2},\quad 0 \leq a \leq R FD(a)=P(D≤a)=P(X2+Y2≤a2)=πR2πa2=R2a2,0≤a≤R

(d) E\[D\]

fD(a)=ddaFD(a)=2aR2,0≤a≤R⇒E[D]=∫0Ra⋅2aR2da=2R2∫0Ra2da=2R3 f_D(a) = \frac{d}{da} F_D(a) = \frac{2a}{R^2},\quad 0 \leq a \leq R \Rightarrow E[D] = \int_0^R a \cdot \frac{2a}{R^2} da = \frac{2}{R^2} \int_0^R a^2 da = \frac{2R}{3} fD(a)=dadFD(a)=R22a,0≤a≤R⇒E[D]=∫0Ra⋅R22ada=R22∫0Ra2da=32R

例 1e:比值分布

f(x,y) = e\^{-(x+y)},\\ x\>0,y\>0

Z = X/Y 的密度函数。

先求分布函数:

FZ(a)=P(XY≤a)=∬x/y≤ae−(x+y)dxdy=∫0∞∫0aye−(x+y)dxdy=∫0∞(1−e−ay)e−ydy=∫0∞e−ydy−∫0∞e−(a+1)ydy=1−1a+1 \begin{aligned} F_Z(a) &= P\left(\frac{X}{Y} \leq a\right) = \iint_{x/y \leq a} e^{-(x+y)} dx dy \\ &= \int_0^\infty \int_0^{ay} e^{-(x+y)} dx dy = \int_0^\infty (1 - e^{-ay}) e^{-y} dy \\ &= \int_0^\infty e^{-y} dy - \int_0^\infty e^{-(a+1)y} dy = 1 - \frac{1}{a+1} \end{aligned} FZ(a)=P(YX≤a)=∬x/y≤ae−(x+y)dxdy=∫0∞∫0aye−(x+y)dxdy=∫0∞(1−e−ay)e−ydy=∫0∞e−ydy−∫0∞e−(a+1)ydy=1−a+11

求导得密度:

fZ(a)=ddaFZ(a)=1(a+1)2,a>0 f_Z(a) = \frac{d}{da} F_Z(a) = \frac{1}{(a+1)^2},\quad a > 0 fZ(a)=dadFZ(a)=(a+1)21,a>0


n 维联合分布

推广到 n 个随机变量 X_1,\\dots,X_n

  • 联合分布函数:
    F(a1,...,an)=P{X1≤a1,...,Xn≤an} F(a_1,\dots,a_n) = P\{X_1 \leq a_1, \dots, X_n \leq a_n\} F(a1,...,an)=P{X1≤a1,...,Xn≤an}

  • 若存在函数 f(x_1,\\dots,x_n) ,使得:
    KaTeX parse error: Undefined control sequence: \idotsint at position 30: ...,X_n)\in C\} = \̲i̲d̲o̲t̲s̲i̲n̲t̲\limits_{(x_i)\...

    则称其为联合密度函数

  • 特别地:
    P{X1∈A1,...,Xn∈An}=∫An⋯∫A1f(x1,...,xn)dx1⋯dxn P\{X_1 \in A_1, \dots, X_n \in A_n\} = \int_{A_n} \cdots \int_{A_1} f(x_1,\dots,x_n) dx_1\cdots dx_n P{X1∈A1,...,Xn∈An}=∫An⋯∫A1f(x1,...,xn)dx1⋯dxn

例 1f:多项分布(Multinomial Distribution)

进行 n 次独立试验,每次有 r 种结果,概率分别为 p_1,\\dots,p_r ,且 \\sum p_i = 1

X_i :第 i 种结果出现的次数。

则联合分布列为:

P{X1=n1,...,Xr=nr}=n!n1!⋯nr!p1n1⋯prnr,∑ni=n(1.5) P\{X_1=n_1,\dots,X_r=n_r\} = \frac{n!}{n_1!\cdots n_r!} p_1^{n_1} \cdots p_r^{n_r}, \quad \sum n_i = n \tag{1.5} P{X1=n1,...,Xr=nr}=n1!⋯nr!n!p1n1⋯prnr,∑ni=n(1.5)

证明思路:固定结果出现次数,共有 \\frac{n!}{\\prod n_i!} 种排列方式,每种概率为 \\prod p_i\^{n_i}

r=2 时,退化为二项分布。

应用举例 :掷骰子 9 次,求 1 出现 3 次,2、3 各 2 次,4、5 各 1 次,6 出现 0 次的概率:
P=9!3!2!2!1!1!0!(16)9=9!3!2!2!(16)9 P = \frac{9!}{3!2!2!1!1!0!} \left(\frac{1}{6}\right)^9 = \frac{9!}{3!2!2!} \left(\frac{1}{6}\right)^9 P=3!2!2!1!1!0!9!(61)9=3!2!2!9!(61)9

!IMPORTANT

这需要对之前曾经提到过的分组概率进行复习

6.2 独立随机变量

定义

随机变量 X Y 独立,当且仅当对任意集合 A,B

P{X∈A,Y∈B}=P{X∈A}P{Y∈B}(2.1) P\{X \in A, Y \in B\} = P\{X \in A\} P\{Y \in B\} \tag{2.1} P{X∈A,Y∈B}=P{X∈A}P{Y∈B}(2.1)

等价地:

F(a,b)=FX(a)FY(b),∀a,b F(a,b) = F_X(a) F_Y(b),\quad \forall a,b F(a,b)=FX(a)FY(b),∀a,b

离散情形下的独立性
p(x,y)=pX(x)pY(y),∀x,y(2.2) p(x,y) = p_X(x) p_Y(y),\quad \forall x,y \tag{2.2} p(x,y)=pX(x)pY(y),∀x,y(2.2)

连续情形下的独立性
f(x,y)=fX(x)fY(y),∀x,y f(x,y) = f_X(x) f_Y(y),\quad \forall x,y f(x,y)=fX(x)fY(y),∀x,y

独立性的等价条

X,Y 独立 \\iff 联合密度(或分布列)可分解为:

fX,Y(x,y)=h(x)g(y) f_{X,Y}(x,y) = h(x) g(y) fX,Y(x,y)=h(x)g(y)

证明(连续情形)

f(x,y) = h(x)g(y) ,则:

1=∫∫h(x)g(y)dxdy=(∫h(x)dx)(∫g(y)dy)=C1C2 1 = \int\int h(x)g(y) dx dy = \left(\int h(x)dx\right)\left(\int g(y)dy\right) = C_1 C_2 1=∫∫h(x)g(y)dxdy=(∫h(x)dx)(∫g(y)dy)=C1C2

令:

  • f_X(x) = C_1 h(x)
  • f_Y(y) = C_2 g(y)

f(x,y) = f_X(x) f_Y(y) ,故独立。

例题

例 2a:二项试验的独立性

进行 n+m 次独立伯努利试验, X :前 n 次成功次数, Y :后 m 次成功次数。

由于试验独立, X,Y 独立。

验证:
P(X=x,Y=y)=(nx)px(1−p)n−x(my)py(1−p)m−y=P(X=x)P(Y=y) P(X=x,Y=y) = \binom{n}{x} p^x (1-p)^{n-x} \binom{m}{y} p^y (1-p)^{m-y} = P(X=x)P(Y=y) P(X=x,Y=y)=(xn)px(1−p)n−x(ym)py(1−p)m−y=P(X=x)P(Y=y)

X 与总成功数 Z = X+Y 相关。

例 2b:泊松拆分

设进入邮局总人数为参数 \\lambda 的泊松变量。每人是男性概率 p ,女性 1-p ,且独立。

X :男性人数,:男性人数,:男性人数, Y :女性人数。

结论 X \\sim \\text{Poisson}(\\lambda p) ,,, Y \\sim \\text{Poisson}(\\lambda(1-p)) ,且 X,Y 独立。

证明

P(X=i,Y=j)=P(X=i,Y=j∣X+Y=i+j)P(X+Y=i+j)=(i+ji)pi(1−p)j⋅e−λλi+j(i+j)!=e−λ(λp)ii![λ(1−p)]jj!=[e−λp(λp)ii!][e−λ(1−p)[λ(1−p)]jj!] \begin{aligned} P(X=i,Y=j) &= P(X=i,Y=j \mid X+Y=i+j) P(X+Y=i+j) \\ &= \binom{i+j}{i} p^i (1-p)^j \cdot e^{-\lambda} \frac{\lambda^{i+j}}{(i+j)!} \\ &= e^{-\lambda} \frac{(\lambda p)^i}{i!} \frac{[\lambda(1-p)]^j}{j!} \\ &= \left[e^{-\lambda p} \frac{(\lambda p)^i}{i!}\right] \left[e^{-\lambda(1-p)} \frac{[\lambda(1-p)]^j}{j!}\right] \end{aligned} P(X=i,Y=j)=P(X=i,Y=j∣X+Y=i+j)P(X+Y=i+j)=(ii+j)pi(1−p)j⋅e−λ(i+j)!λi+j=e−λi!(λp)ij![λ(1−p)]j=[e−λpi!(λp)i][e−λ(1−p)j![λ(1−p)]j]

P(X=i,Y=j) = P(X=i)P(Y=j) ,独立得证。

例 2c:等待时间问题

两人约定 12:00--13:00 见面,到达时间独立且服从 (0,60) 上的均匀分布。

求先到者等待超过 10 分钟的概率。

X,Y \\sim U(0,60) ,独立。

所求概率为:

!NOTE

观察这两个概率:

  • P(Y \> X + 10) :女士比男士晚到超过 10 分钟
  • P(X \> Y + 10) :男士比女士晚到超过 10 分钟

由于:

  • X Y 都服从相同的分布: U(0,60)
  • X Y 相互独立
  • 两人的行为完全对称(没有谁"优先")

所以这两个事件的概率是相等的

P(∣X−Y∣>10)=P(X+10<Y)+P(Y+10<X)=2P(X+10<Y) P(|X - Y| > 10) = P(X + 10 < Y) + P(Y + 10 < X) = 2P(X + 10 < Y) P(∣X−Y∣>10)=P(X+10<Y)+P(Y+10<X)=2P(X+10<Y)

2P(X+10<Y)=2∫1060∫0y−10(160)2dxdy=23600∫1060(y−10)dy=23600⋅(50)22=25003600=2536 \begin{aligned} 2P(X+10 < Y) &= 2 \int_{10}^{60} \int_0^{y-10} \left(\frac{1}{60}\right)^2 dx dy \\ &= \frac{2}{3600} \int_{10}^{60} (y - 10) dy = \frac{2}{3600} \cdot \frac{(50)^2}{2} = \frac{2500}{3600} = \frac{25}{36} \end{aligned} 2P(X+10<Y)=2∫1060∫0y−10(601)2dxdy=36002∫1060(y−10)dy=36002⋅2(50)2=36002500=3625

例 2d:蒲丰投针问题

平行线间距 D ,针长 L \\leq D 。随机投针,求与某线相交的概率。

设:

  • X :针中点到最近线的距离,:针中点到最近线的距离,:针中点到最近线的距离, X \\sim U(0, D/2)
  • \\theta :针与垂线夹角,:针与垂线夹角,:针与垂线夹角, \\theta \\sim U(0, \\pi/2)
  • X,\\theta 独立

相交条件: X \< \\frac{L}{2} \\cos\\theta

P(相交)=∬x<L2cos⁡θfX(x)fθ(θ)dxdθ=4πD∫0π/2∫0L2cos⁡θdxdθ=4πD∫0π/2L2cos⁡θdθ=2LπD \begin{aligned} P(\text{相交}) &= \iint_{x < \frac{L}{2} \cos\theta} f_X(x) f_\theta(\theta) dx d\theta \\ &= \frac{4}{\pi D} \int_0^{\pi/2} \int_0^{\frac{L}{2} \cos\theta} dx d\theta = \frac{4}{\pi D} \int_0^{\pi/2} \frac{L}{2} \cos\theta d\theta = \frac{2L}{\pi D} \end{aligned} P(相交)=∬x<2LcosθfX(x)fθ(θ)dxdθ=πD4∫0π/2∫02Lcosθdxdθ=πD4∫0π/22Lcosθdθ=πD2L

例 2e:正态分布的特征性质

假设:

  1. X,Y 独立、连续、密度可微;
  2. 联合密度 f(x,y) = f_X(x)f_Y(y) 仅依赖于 x\^2 + y\^2

X,Y 为独立同分布正态变量,均值 0

f_X(x)f_Y(y) = g(x\^2 + y\^2)

两边对 x 求导:

fX′(x)fY(y)=2xg′(x2+y2) f_X'(x) f_Y(y) = 2x g'(x^2 + y^2) fX′(x)fY(y)=2xg′(x2+y2)

除以原式:

fX′(x)fX(x)=2xg′(x2+y2)g(x2+y2)⇒fX′(x)2xfX(x)=g′(x2+y2)g(x2+y2) \frac{f_X'(x)}{f_X(x)} = \frac{2x g'(x^2 + y^2)}{g(x^2 + y^2)} \Rightarrow \frac{f_X'(x)}{2x f_X(x)} = \frac{g'(x^2 + y^2)}{g(x^2 + y^2)} fX(x)fX′(x)=g(x2+y2)2xg′(x2+y2)⇒2xfX(x)fX′(x)=g(x2+y2)g′(x2+y2)

左边仅含 x ,右边仅含 x\^2 + y\^2 ,故必为常数 c

fX′(x)xfX(x)=2c⇒ddxln⁡fX(x)=2cx⇒ln⁡fX(x)=a+cx2⇒fX(x)=kecx2 \frac{f_X'(x)}{x f_X(x)} = 2c \Rightarrow \frac{d}{dx} \ln f_X(x) = 2c x \Rightarrow \ln f_X(x) = a + c x^2 \Rightarrow f_X(x) = k e^{c x^2} xfX(x)fX′(x)=2c⇒dxdlnfX(x)=2cx⇒lnfX(x)=a+cx2⇒fX(x)=kecx2

!NOTE

对于密度函数需要满足:

  1. 非负性:自动满足,因为指数函数恒正

  2. 归一化 :必须有
    ∫−∞∞fX(x) dx=1 \int_{-\infty}^{\infty} f_X(x)\, dx = 1 ∫−∞∞fX(x)dx=1

    如果c > 0,则没法收敛

归一化要求 c \< 0 ,令 c = -1/(2\\sigma\^2) ,得正态密度。

同理 f_Y(y) 也为正态,且方差相同。

例 2f:判断独立性

(1) f(x,y) = 6e^{-2x}e^{-3y},\\ x\>0,y\>0

可分解为 (6e^{-2x})(e^{-3y}) ,故独立。

(2) f(x,y) = 24xy I(x,y) ,其中 I(x,y)=1 0\

支持集不是矩形,无法分解,故不独立。

如果联合密度函数的支持集(support)不是矩形区域(即不能写成 A \\times B 的形式),那么 X Y 一定不独立。

相关推荐
Zero7 小时前
机器学习概率论与统计学--(8)概率论:数字特征
机器学习·概率论·随机变量·统计学·方差·协方差·期望
Zero7 小时前
机器学习概率论与统计学--(9)统计学:参数估计
机器学习·概率论·统计学·矩估计·最大似然估计·点估计
R语言爱好者17 小时前
对比两点分布、二项分布和泊松分布,几何分布,超几何分布之间的区别
概率论·高中数学
bulingg2 天前
L1与L2正则化的差异
线性代数·矩阵·概率论
皮蛋瘦肉熬不成粥3 天前
MES(The Measures of Effect Size )工具箱的使用
matlab·概率论
我要学好英语3 天前
概率密度——分布、期望、方差和协方差
深度学习·概率论·概率密度·方差·协方差·期望·分布
我要学好英语3 天前
概率法则——贝叶斯定理
深度学习·概率论·贝叶斯定理
Eloudy4 天前
贝叶斯定律的内涵
概率论
Zero4 天前
机器学习概率论与统计学--(6)概率论:连续分布
机器学习·概率论·统计学·概率密度函数·连续分布
Zero5 天前
机器学习概率论与统计学--(7)概率论:多维随机变量
机器学习·概率论·随机变量·统计学·多维随机变量