Morden Prob
文章目录
- [Morden Prob](#Morden Prob)
-
- Week3
-
- 多维扩展和随机向量
- 定理3.1
- [推论:random variable的变换](#推论:random variable的变换)
- [定理3.2 连续函数的可测性](#定理3.2 连续函数的可测性)
- [定理3.3 可测函数的线性组合](#定理3.3 可测函数的线性组合)
- 关于拓展实数集的延伸
- [定理3.4 可测函数的极限依旧为可测性](#定理3.4 可测函数的极限依旧为可测性)
- [随机变量的概率律(Law of X X X)](#随机变量的概率律(Law of X X X))
- [分布函数 F X F_X FX 的定义](#分布函数 F X F_X FX 的定义)
- 分布函数的性质
- 随机变量的密度函数
- [由随机变量生成的 σ \sigma σ-代数](#由随机变量生成的 σ \sigma σ-代数)
- [定理3.5 σ ( Y ) \sigma(Y) σ(Y)-可测性](#定理3.5 σ ( Y ) \sigma(Y) σ(Y)-可测性)
- [由随机变量生成的 σ \sigma σ-代数](#由随机变量生成的 σ \sigma σ-代数)
Week3
我们用**Ⓜ**来表示是可测的(measurable)
多维扩展和随机向量
当我们把可测函数 X : Ω → R X: \Omega \to \mathbb{R} X:Ω→R 的定义扩展到更高维空间 R n \mathbb{R}^n Rn 时,这个函数被称为"随机向量"。这意味着,如果我们把一个随机变量(原本是一维的数)推广到多维空间,那么我们就可以描述更丰富的现象,比如位置、速度、温度等多个维度一起变化的情况。
数学上,把这个多维的情况用符号表示就是:
X : Ω → R n X: \Omega \to \mathbb{R}^n X:Ω→Rn
这意味着, X X X 是一个从事件空间 Ω \Omega Ω 到 n n n 维实数空间 R n \mathbb{R}^n Rn 的映射。
在实际应用中,比如在金融、物理等领域,这种"随机向量"概念非常常见,它允许我们在一个随机变量的框架内处理多维数据。
定理3.1
如果两个函数都是可测的,那么它们的复合函数也是可测的。用符号表示就是:
- 给定可测空间 ( Ω , F ) (\Omega, \mathcal{F}) (Ω,F)、 ( S , B ) (S, \mathcal{B}) (S,B) 和 ( T , C ) (T, \mathcal{C}) (T,C)
- 假设 f : Ω → S f: \Omega \to S f:Ω→S 和 g : S → T g: S \to T g:S→T 都是可测函数(标记为Ⓜ )
那么复合函数 g ∘ f : Ω → T g \circ f : \Omega \to T g∘f:Ω→T 也是可测的。
证明 中的关键是要检查 g ∘ f g \circ f g∘f 的逆像是否属于 F \mathcal{F} F。具体步骤如下:
( g ∘ f ) − 1 ( C ) = f − 1 ( g − 1 ( C ) ) ⊆ f − 1 ( B ) ⊆ F (g \circ f)^{-1}(\mathcal{C}) = f^{-1}(g^{-1}(\mathcal{C})) \subseteq f^{-1}(\mathcal{B}) \subseteq \mathcal{F} (g∘f)−1(C)=f−1(g−1(C))⊆f−1(B)⊆F
- 首先,因为 g g g 是可测的,意味着 g − 1 ( C ) ⊆ B g^{-1}(\mathcal{C}) \subseteq \mathcal{B} g−1(C)⊆B,即任何集合 C ∈ C C \in \mathcal{C} C∈C 的逆像 g − 1 ( C ) g^{-1}(C) g−1(C) 属于 B \mathcal{B} B。
- 接着,因为 f f f 也是可测的,所以 f − 1 ( B ) ⊆ F f^{-1}(B) \subseteq \mathcal{F} f−1(B)⊆F,即对于任何 B ∈ B B \in \mathcal{B} B∈B,其逆像 f − 1 ( B ) f^{-1}(B) f−1(B) 属于 F \mathcal{F} F。
- 因此,由 ( g ∘ f ) − 1 ( C ) = f − 1 ( g − 1 ( C ) ) (g \circ f)^{-1}(\mathcal{C}) = f^{-1}(g^{-1}(\mathcal{C})) (g∘f)−1(C)=f−1(g−1(C)) 可以推出 ( g ∘ f ) − 1 ( C ) ⊆ F (g \circ f)^{-1}(\mathcal{C}) \subseteq \mathcal{F} (g∘f)−1(C)⊆F,从而说明复合函数 g ∘ f g \circ f g∘f 也是可测的。
你可以把它想象成层层传递的可测性,就像一支接力棒,从 g g g 到 f f f,最终确保复合函数 g ∘ f g \circ f g∘f 也能传递"可测"这个特性。
推论:random variable的变换
如果 X X X 是一个随机变量 ,且 f f f 是一个 Borel 函数,那么 f ∘ X f \circ X f∘X 也是一个随机变量。这实际上是一种非常常见的操作:我们经常会对随机变量进行各种变换,而我们希望变换之后仍然保持它的"随机性",也就是说,变换后的变量仍然是随机变量。
根据 定理3.1 ,因为 X X X 是随机变量,意味着 X X X 是可测的,而 f f f 作为 Borel 函数也是可测的。于是由定理3.1 ,我们知道 f ∘ X f \circ X f∘X 是可测的,因此 f ∘ X f \circ X f∘X 是随机变量。
比如对一个正态分布的随机变量 X X X,我们可以定义 Y = sin ( X ) Y = \sin(X) Y=sin(X), Y Y Y也是一个随机变量
定理3.2 连续函数的可测性
如果一个函数 f : R → R f: \mathbb{R} \to \mathbb{R} f:R→R 是连续的,那么它就是可测的(标记为 Ⓜ )。
证明思路
首先,我们回顾一下 B ( R ) \mathcal{B}(\mathbb{R}) B(R),它表示 R \mathbb{R} R 上的 Borel σ \sigma σ-代数。这就是所有在 R \mathbb{R} R 上的 Borel 集构成的集合。它是通过开集生成的,所以我们可以写成:
B ( R ) = σ ( O ) \mathcal{B}(\mathbb{R}) = \sigma(\mathcal{O}) B(R)=σ(O)
其中 O \mathcal{O} O 是所有开集的集合。
接下来,我们看一下 f − 1 ( B ( R ) ) f^{-1}(\mathcal{B}(\mathbb{R})) f−1(B(R))。因为 f f f 是连续的,所以它的逆像也保留了"开集"的特性。
f − 1 ( B ( R ) ) = f − 1 ( σ ( O ) ) = σ ( f − 1 ( O ) ) ⊂ σ ( O ) = B ( R ) f^{-1}(\mathcal{B}(\mathbb{R})) = f^{-1}(\sigma(\mathcal{O})) = \sigma(f^{-1}(\mathcal{O})) \subset \sigma(\mathcal{O}) = \mathcal{B}(\mathbb{R}) f−1(B(R))=f−1(σ(O))=σ(f−1(O))⊂σ(O)=B(R)
这条式子说明了, f f f 的逆像仍然在 Borel σ \sigma σ-代数 B ( R ) \mathcal{B}(\mathbb{R}) B(R) 内,因此 f f f 是可测的。
定理3.3 可测函数的线性组合
如果我们有两个可测函数 f : Ω → R f: \Omega \to \mathbb{R} f:Ω→R 和 g : Ω → R g: \Omega \to \mathbb{R} g:Ω→R,那么它们的线性组合 α f + β g \alpha f + \beta g αf+βg 也是可测的,其中 α \alpha α 和 β \beta β 是实数。
背后的逻辑
假设 f f f 和 g g g 都是可测的,这意味着它们的逆像属于测度空间 ( Ω , F ) (\Omega, \mathcal{F}) (Ω,F)。线性组合的逆像可以用 f f f 和 g g g 的逆像表示,而测度空间的结构允许我们对这些逆像进行加法和数乘运算,这就是为什么 α f + β g \alpha f + \beta g αf+βg 仍然保持可测性的原因。
关于拓展实数集的延伸
我们可以把实数集 R \mathbb{R} R 拓展到包含正负无穷的扩展实数集 R ‾ = R ∪ { − ∞ , + ∞ } \overline{\mathbb{R}} = \mathbb{R} \cup \{-\infty, +\infty\} R=R∪{−∞,+∞}。在这种拓展下,之前关于可测函数的定义和结论仍然成立
定理3.4 可测函数的极限依旧为可测性
如果我们有一列可测函数 { f n } \{f_n\} {fn},那么这列函数的几个极限也都是可测的。
具体包括以下五种操作:
- 上确界 sup n ≥ 1 f n \sup_{n \geq 1} f_n supn≥1fn:即函数序列的"最大上界"。
- 下确界 inf n ≥ 1 f n \inf_{n \geq 1} f_n infn≥1fn:即函数序列的"最小下界"。
- 上极限 lim sup n → ∞ f n \limsup_{n \to \infty} f_n limsupn→∞fn:这是在取极限时"最远达到"的上界值。
- 下极限 lim inf n → ∞ f n \liminf_{n \to \infty} f_n liminfn→∞fn:这是在取极限时"最远达到"的下界值。
- 极限 lim n → ∞ f n \lim_{n \to \infty} f_n limn→∞fn(当极限存在时):也就是序列最终收敛到的值。
这些极限结果也同样是随机变量
随机变量的概率律(Law of X X X)
设 X X X 是定义在概率空间 ( Ω , F , P ) (\Omega, \mathcal{F}, \mathbb{P}) (Ω,F,P) 上的随机变量,那么 X X X 的概率律就是一个从 B ( R ) \mathcal{B}(\mathbb{R}) B(R) 到 [ 0 , 1 ] [0, 1] [0,1] 的概率测度,记作 P X \mathbb{P}_X PX。它表示为:
P X ( B ) = P ( X − 1 ( B ) ) = P ( X ∈ B ) \mathbb{P}_X(B) = \mathbb{P}(X^{-1}(B)) = \mathbb{P}(X \in B) PX(B)=P(X−1(B))=P(X∈B)
其中, B ∈ B ( R ) B \in \mathcal{B}(\mathbb{R}) B∈B(R) 是 R \mathbb{R} R 上的 Borel 集。
解释
可以把 P X ( B ) \mathbb{P}_X(B) PX(B)理解为" X X X落在集合 B B B中的概率"。也就是说, P X \mathbb{P}_X PX 表示随机变量 X X X 的分布,它告诉我们 X X X 的取值在实数线上的分布情况。
在直观上,这个分布 P X \mathbb{P}_X PX 告诉我们,随机变量 X X X 的可能取值在哪里出现的概率最高、哪里出现的概率最低。例如,若 X X X 是一个服从正态分布的随机变量,那么 P X \mathbb{P}_X PX 就是一个高斯分布,它反映了 X X X 的概率分布特性。
分布函数 F X F_X FX 的定义
分布函数 F X : R → [ 0 , 1 ] F_X: \mathbb{R} \to [0, 1] FX:R→[0,1] 定义为
F X ( x ) = P ( X ≤ x ) F_X(x) = \mathbb{P}(X \leq x) FX(x)=P(X≤x)
对于任意 x ∈ R x \in \mathbb{R} x∈R。也就是说, F X ( x ) F_X(x) FX(x) 表示随机变量 X X X 取值小于或等于 x x x 的概率。
F X ( x ) = P ( X − 1 ( ( − ∞ , x ] ) ) = P ( X ≤ x ) F_X(x) = \mathbb{P}(X^{-1}((-\infty, x])) = \mathbb{P}(X \leq x) FX(x)=P(X−1((−∞,x]))=P(X≤x)
分布函数的性质
F X F_X FX 具有以下四个重要性质:
-
单调性 : F X F_X FX 是递增的,也就是说,当 x x x 增大时, F X ( x ) F_X(x) FX(x) 也不会减小。因为对于任意 x 1 < x 2 x_1 < x_2 x1<x2,事件 { X ≤ x 1 } \{X \leq x_1\} {X≤x1} 包含于事件 { X ≤ x 2 } \{X \leq x_2\} {X≤x2},所以有 F X ( x 1 ) ≤ F X ( x 2 ) F_X(x_1) \leq F_X(x_2) FX(x1)≤FX(x2)。
-
右连续性 : F X F_X FX 是右连续的。也就是说, lim x → x 0 + F X ( x ) = F X ( x 0 ) \lim_{x \to x_0^+} F_X(x) = F_X(x_0) limx→x0+FX(x)=FX(x0)。这保证了在 x x x 向右逼近的过程中, F X F_X FX 不会出现突变。右连续性在概率论中很重要,因为很多关于分布的操作依赖于这种平稳的行为。
-
边界条件 :当 x → − ∞ x \to -\infty x→−∞ 时, F X ( x ) → 0 F_X(x) \to 0 FX(x)→0。这是因为 X X X 取值小于极小值的概率趋于零;而当 x → + ∞ x \to +\infty x→+∞ 时, F X ( x ) → 1 F_X(x) \to 1 FX(x)→1,因为 X X X 取值小于极大值的概率趋于 1。
-
唯一性 : F X F_X FX 唯一地确定了 X X X 的概率分布。因为分布函数 F X F_X FX 满足以上性质,它可以用来唯一地描述 X X X 的分布。这一点可以通过 π \pi π-系统的结果来证明。
在图片中, F X ( x ) F_X(x) FX(x) 的图像是一条递增的曲线,右端逼近 1,左端逼近 0。中间可能会出现跳跃点,但这些跳跃都是向上跳跃的,并且 F X F_X FX 在每一个点都保持右连续。
随机变量的密度函数
如果分布函数 F X F_X FX 是绝对连续的,我们可以将它表示为一个积分:
F X ( x ) = ∫ − ∞ x f X ( y ) d y F_X(x) = \int_{-\infty}^x f_X(y) \, dy FX(x)=∫−∞xfX(y)dy
其中 f X : R → [ 0 , ∞ ) f_X: \mathbb{R} \to [0, \infty) fX:R→[0,∞) 是一个 Borel 可测函数,这个函数就是 概率密度函数 (Probability Density Function, PDF)。我们可以通过 f X f_X fX 的积分来找到任意区间的概率。例如,对于 B ∈ B ( R ) B \in \mathcal{B}(\mathbb{R}) B∈B(R),有
P X ( B ) = ∫ B f X ( x ) d x \mathbb{P}_X(B) = \int_B f_X(x) \, dx PX(B)=∫BfX(x)dx
解释
需要注意的是,密度函数 f X f_X fX 是在Lebesgue测度意义下唯一的,这也就是说它唯一地描述了随机变量 X X X 的分布(除了一个Lebesgue测度为零的集合)。
Example :常见分布的例子
(I) 离散型随机变量
-
Bernoulli 分布 : X ∼ Be ( p ) X \sim \text{Be}(p) X∼Be(p),其中 p ∈ [ 0 , 1 ] p \in [0, 1] p∈[0,1]。这个分布表示一个只有两个可能取值的随机变量:
P ( X = 1 ) = p , P ( X = 0 ) = 1 − p \mathbb{P}(X = 1) = p, \quad \mathbb{P}(X = 0) = 1 - p P(X=1)=p,P(X=0)=1−p -
Binomial 分布 : X ∼ Bi ( n , p ) X \sim \text{Bi}(n, p) X∼Bi(n,p),其中 n ≥ 1 n \geq 1 n≥1 且 p ∈ [ 0 , 1 ] p \in [0, 1] p∈[0,1]。这是 n n n 次独立的伯努利试验成功的次数:
P ( X = k ) = ( n k ) p k ( 1 − p ) n − k , 0 ≤ k ≤ n \mathbb{P}(X = k) = \binom{n}{k} p^k (1 - p)^{n - k}, \quad 0 \leq k \leq n P(X=k)=(kn)pk(1−p)n−k,0≤k≤n -
Geometric 分布 : X ∼ Ge ( p ) X \sim \text{Ge}(p) X∼Ge(p),其中 p ∈ [ 0 , 1 ] p \in [0, 1] p∈[0,1]。表示直到第一次成功之前失败的次数:
P ( X = n ) = p ( 1 − p ) n − 1 , n ≥ 1 \mathbb{P}(X = n) = p (1 - p)^{n - 1}, \quad n \geq 1 P(X=n)=p(1−p)n−1,n≥1
(II) 连续型随机变量
-
Uniform 分布 : X ∼ U ( a , b ) X \sim \text{U}(a, b) X∼U(a,b),其中 a < b a < b a<b。这是在区间 [ a , b ] [a, b] [a,b] 上均匀分布的随机变量,密度函数为
f X ( x ) = { 1 b − a if x ∈ [ a , b ] 0 otherwise f_X(x) = \begin{cases} \frac{1}{b - a} & \text{if } x \in [a, b] \\ 0 & \text{otherwise} \end{cases} fX(x)={b−a10if x∈[a,b]otherwise -
Exponential 分布 : X ∼ Exp ( λ ) X \sim \text{Exp}(\lambda) X∼Exp(λ),其中 λ > 0 \lambda > 0 λ>0。这是一个用于描述事件时间的分布,密度函数为
f X ( x ) = { λ e − λ x if x > 0 0 otherwise f_X(x) = \begin{cases} \lambda e^{-\lambda x} & \text{if } x > 0 \\ 0 & \text{otherwise} \end{cases} fX(x)={λe−λx0if x>0otherwise -
Normal/Gaussian 分布 : X ∼ N ( μ , σ 2 ) X \sim \mathcal{N}(\mu, \sigma^2) X∼N(μ,σ2),其中 μ ∈ R , σ > 0 \mu \in \mathbb{R}, \sigma > 0 μ∈R,σ>0。这是非常常见的正态分布,密度函数为
f X ( x ) = 1 σ 2 π e − ( x − μ ) 2 2 σ 2 , x ∈ R f_X(x) = \frac{1}{\sigma \sqrt{2 \pi}} e^{-\frac{(x - \mu)^2}{2 \sigma^2}}, \quad x \in \mathbb{R} fX(x)=σ2π 1e−2σ2(x−μ)2,x∈R
由随机变量生成的 σ \sigma σ-代数
给定一个随机变量 X X X,定义在概率空间 ( Ω , F , P ) (\Omega, \mathcal{F}, \mathbb{P}) (Ω,F,P)上,我们可以找到一个最小的 σ \sigma σ-代数使得 X X X是可测的。这个 σ \sigma σ-代数被称为由 X X X生成的 σ \sigma σ-代数 ,记作 σ ( X ) \sigma(X) σ(X)。它定义为:
σ ( X ) : = X − 1 ( B ( R ) ) = { X − 1 ( B ) ∣ B ∈ B ( R ) } . \sigma(X) := X^{-1}(\mathcal{B}(\mathbb{R})) = \{X^{-1}(B) | B \in \mathcal{B}(\mathbb{R})\}. σ(X):=X−1(B(R))={X−1(B)∣B∈B(R)}.
解释
σ ( X ) \sigma(X) σ(X)包含了所有可以通过 X X X来描述的事件。换句话说,如果我们知道 σ ( X ) \sigma(X) σ(X)中的信息,那么我们就能"完全"地知道 X X X的行为。例如,假设 X X X是一个连续随机变量,那么 σ ( X ) \sigma(X) σ(X)就包含了所有关于 X X X的事件,比如 X ≤ x X \leq x X≤x的事件集合。。
定理3.5 σ ( Y ) \sigma(Y) σ(Y)-可测性
假设我们有两个随机变量 X X X和 Y Y Y,定义在同一个概率空间 ( Ω , F , P ) (\Omega, \mathcal{F}, \mathbb{P}) (Ω,F,P)上。如果 X X X是 σ ( Y ) \sigma(Y) σ(Y)-可测的,这意味着 X X X可以"通过 Y Y Y来表示"。
X X X是 σ ( Y ) \sigma(Y) σ(Y)-可测当且仅当存在一个可测函数 f : R → R f : \mathbb{R} \to \mathbb{R} f:R→R使得 X = f ( Y ) X = f(Y) X=f(Y)。
证明思路
假设 X = f ( Y ) X = f(Y) X=f(Y),其中 f f f是可测的。要证明 X X X是 σ ( Y ) \sigma(Y) σ(Y)-可测,我们可以使用逆像的概念:
X − 1 ( B ( R ) ) = Y − 1 ( f − 1 ( B ( R ) ) ) ⊆ Y − 1 ( B ( R ) ) = σ ( Y ) . X^{-1}(\mathcal{B}(\mathbb{R})) = Y^{-1}(f^{-1}(\mathcal{B}(\mathbb{R}))) \subseteq Y^{-1}(\mathcal{B}(\mathbb{R})) = \sigma(Y). X−1(B(R))=Y−1(f−1(B(R)))⊆Y−1(B(R))=σ(Y).
因为 f f f是可测的, f − 1 ( B ( R ) ) ⊆ B ( R ) f^{-1}(\mathcal{B}(\mathbb{R})) \subseteq \mathcal{B}(\mathbb{R}) f−1(B(R))⊆B(R),所以 X − 1 ( B ( R ) ) ⊆ σ ( Y ) X^{-1}(\mathcal{B}(\mathbb{R})) \subseteq \sigma(Y) X−1(B(R))⊆σ(Y)。这说明 X X X是 σ ( Y ) \sigma(Y) σ(Y)-可测的。
可以把 σ ( Y ) \sigma(Y) σ(Y)-可测性理解为: X X X的行为可以通过 Y Y Y来表示。比如,如果 X X X和 Y Y Y表示相关的物理量(比如温度和气压),并且 X X X可以写成 Y Y Y的某种函数形式,那么我们说 X X X是 σ ( Y ) \sigma(Y) σ(Y)-可测的,这就意味着所有关于 X X X的事件可以通过 Y Y Y的事件来描述。
由随机变量生成的 σ \sigma σ-代数
假设我们有一组随机变量 { X i } i ∈ I \{X_i\}_{i \in I} {Xi}i∈I,定义在同一概率空间 ( Ω , F , P ) (\Omega, \mathcal{F}, \mathbb{P}) (Ω,F,P) 上。由这些随机变量 生成的 σ \sigma σ-代数,记作 σ ( X i ∣ i ∈ I ) \sigma(X_i \mid i \in I) σ(Xi∣i∈I),是能够 使得所有 X i X_i Xi 可测 的最小 σ \sigma σ-代数。
具体来说,这个 σ \sigma σ-代数可以表示为:
σ ( X i ∣ i ∈ I ) : = σ ( ⋃ i ∈ I X i − 1 ( B ( R ) ) ) = σ ( { X i − 1 ( B ) ∣ B ∈ B ( R ) , i ∈ I } ) . \sigma(X_i \mid i \in I) := \sigma\left(\bigcup_{i \in I} X_i^{-1}(\mathcal{B}(\mathbb{R}))\right) = \sigma\left(\{X_i^{-1}(B) \mid B \in \mathcal{B}(\mathbb{R}), i \in I\}\right). σ(Xi∣i∈I):=σ(i∈I⋃Xi−1(B(R)))=σ({Xi−1(B)∣B∈B(R),i∈I}).
解释
这就是说, σ ( X i ∣ i ∈ I ) \sigma(X_i \mid i \in I) σ(Xi∣i∈I)包含了所有 可以通过任意一个 X i X_i Xi 来描述 的事件 。它是所有这些 X i X_i Xi 的信息的集合,可以理解为我们能够通过观测这组随机变量 { X i } \{X_i\} {Xi} 得到全部的信息。
需要注意的是,在构建 σ ( X i ∣ i ∈ I ) \sigma(X_i \mid i \in I) σ(Xi∣i∈I)时,我们不能仅仅取各个 σ ( X i ) \sigma(X_i) σ(Xi)的并集,因为并集不一定是 σ \sigma σ-代数。为确保构成 σ \sigma σ-代数,我们需要再取一个 σ \sigma σ运算,这就像是在并集上"封闭"一次,使其满足 σ \sigma σ-代数的性质。
假设场景
假设我们有一个概率空间 ( Ω , F , P ) (\Omega, \mathcal{F}, \mathbb{P}) (Ω,F,P),其中样本空间 Ω = { 1 , 2 , 3 , 4 } \Omega = \{1, 2, 3, 4\} Ω={1,2,3,4}。定义两个随机变量 X X X 和 Y Y Y,它们的取值如下:
-
X X X 只取值 1 1 1 和 2 2 2:
- X ( 1 ) = 1 X(1) = 1 X(1)=1
- X ( 2 ) = 1 X(2) = 1 X(2)=1
- X ( 3 ) = 2 X(3) = 2 X(3)=2
- X ( 4 ) = 2 X(4) = 2 X(4)=2
-
Y Y Y 只取值 1 1 1 和 2 2 2:
- Y ( 1 ) = 1 Y(1) = 1 Y(1)=1
- Y ( 2 ) = 2 Y(2) = 2 Y(2)=2
- Y ( 3 ) = 1 Y(3) = 1 Y(3)=1
- Y ( 4 ) = 2 Y(4) = 2 Y(4)=2
生成的 σ \sigma σ-代数
-
由 X X X 生成的 σ \sigma σ-代数 σ ( X ) \sigma(X) σ(X):
随机变量 X X X 的取值可以将 Ω \Omega Ω 划分为两个集合:
- { 1 , 2 } \{1, 2\} {1,2},对应 X = 1 X = 1 X=1
- { 3 , 4 } \{3, 4\} {3,4},对应 X = 2 X = 2 X=2
因此, σ ( X ) \sigma(X) σ(X) 是由 Ω \Omega Ω、 { 1 , 2 } \{1, 2\} {1,2}、 { 3 , 4 } \{3, 4\} {3,4} 和空集 ∅ \emptyset ∅ 构成的集合系统,即
σ ( X ) = { ∅ , { 1 , 2 } , { 3 , 4 } , Ω } . \sigma(X) = \{\emptyset, \{1, 2\}, \{3, 4\}, \Omega\}. σ(X)={∅,{1,2},{3,4},Ω}. -
由 Y Y Y 生成的 σ \sigma σ-代数 σ ( Y ) \sigma(Y) σ(Y):
随机变量 Y Y Y 的取值将 Ω \Omega Ω 划分为另外两个集合:
- { 1 , 3 } \{1, 3\} {1,3},对应 Y = 1 Y = 1 Y=1
- { 2 , 4 } \{2, 4\} {2,4},对应 Y = 2 Y = 2 Y=2
因此, σ ( Y ) \sigma(Y) σ(Y) 是由 Ω \Omega Ω、 { 1 , 3 } \{1, 3\} {1,3}、 { 2 , 4 } \{2, 4\} {2,4} 和空集 ∅ \emptyset ∅ 构成的集合系统,即
σ ( Y ) = { ∅ , { 1 , 3 } , { 2 , 4 } , Ω } . \sigma(Y) = \{\emptyset, \{1, 3\}, \{2, 4\}, \Omega\}. σ(Y)={∅,{1,3},{2,4},Ω}.
直接取并集的问题
如果我们直接取 σ ( X ) \sigma(X) σ(X) 和 σ ( Y ) \sigma(Y) σ(Y) 的并集,会得到如下集合:
σ ( X ) ∪ σ ( Y ) = { ∅ , { 1 , 2 } , { 3 , 4 } , { 1 , 3 } , { 2 , 4 } , Ω } . \sigma(X) \cup \sigma(Y) = \{\emptyset, \{1, 2\}, \{3, 4\}, \{1, 3\}, \{2, 4\}, \Omega\}. σ(X)∪σ(Y)={∅,{1,2},{3,4},{1,3},{2,4},Ω}.
但这个集合系统不是一个 σ \sigma σ-代数 。为什么呢?因为它不满足 σ \sigma σ-代数的闭合性条件。例如:
- { 1 , 2 } \{1, 2\} {1,2} 和 { 1 , 3 } \{1, 3\} {1,3} 都在 σ ( X ) ∪ σ ( Y ) \sigma(X) \cup \sigma(Y) σ(X)∪σ(Y) 中,但它们的交集 { 1 } \{1\} {1} 不在这个集合里。
- { 1 , 2 } \{1, 2\} {1,2} 的补集 { 3 , 4 } \{3, 4\} {3,4} 是在 σ ( X ) \sigma(X) σ(X)中的,但这只是一个特殊情况。一般情况下,我们需要确保任意集合的补集也在集合系统内,而这里无法保证。
如何构造最小的 σ \sigma σ-代数
为了获得一个满足 σ \sigma σ-代数闭合性的集合系统,我们需要对并集 σ ( X ) ∪ σ ( Y ) \sigma(X) \cup \sigma(Y) σ(X)∪σ(Y) 进行" σ \sigma σ运算",即取其闭包,包含所有可能的补集和交集。
通过构造,我们可以得到:
σ ( X , Y ) = { ∅ , { 1 } , { 2 } , { 3 } , { 4 } , { 1 , 2 } , { 1 , 3 } , { 2 , 4 } , { 3 , 4 } , Ω } . \sigma(X, Y) = \{\emptyset, \{1\}, \{2\}, \{3\}, \{4\}, \{1, 2\}, \{1, 3\}, \{2, 4\}, \{3, 4\}, \Omega\}. σ(X,Y)={∅,{1},{2},{3},{4},{1,2},{1,3},{2,4},{3,4},Ω}.
这个系统就是由 X X X 和 Y Y Y 共同生成的最小 σ \sigma σ-代数,记作 σ ( X , Y ) \sigma(X, Y) σ(X,Y)。它包含了所有可以通过 X X X 和 Y Y Y 的值所确定的事件集合,并且满足 σ \sigma σ-代数的闭合性要求。