测度论原创(三)

Morden Prob

文章目录

[Morden Prob](#Morden Prob)
- Week3
- - 多维扩展和随机向量
  - 定理3.1
  - [推论：random variable的变换](#推论：random variable的变换)
  - [定理3.2 连续函数的可测性](#定理3.2 连续函数的可测性)
  - [定理3.3 可测函数的线性组合](#定理3.3 可测函数的线性组合)
  - 关于拓展实数集的延伸
  - [定理3.4 可测函数的极限依旧为可测性](#定理3.4 可测函数的极限依旧为可测性)
  - [随机变量的概率律（Law of X X X）](#随机变量的概率律（Law of X X X）)
  - [分布函数 F X F_X FX 的定义](#分布函数 F X F_X FX 的定义)
  - 分布函数的性质
  - 随机变量的密度函数
  - [由随机变量生成的 σ \sigma σ-代数](#由随机变量生成的 σ \sigma σ-代数)
  - [定理3.5 σ ( Y ) \sigma(Y) σ(Y)-可测性](#定理3.5 σ ( Y ) \sigma(Y) σ(Y)-可测性)
  - [由随机变量生成的 σ \sigma σ-代数](#由随机变量生成的 σ \sigma σ-代数)

Week3

我们用**Ⓜ**来表示是可测的(measurable)

多维扩展和随机向量

当我们把可测函数 X : Ω → R X: \Omega \to \mathbb{R} X:Ω→R 的定义扩展到更高维空间 R n \mathbb{R}^n Rn 时，这个函数被称为"随机向量"。这意味着，如果我们把一个随机变量（原本是一维的数）推广到多维空间，那么我们就可以描述更丰富的现象，比如位置、速度、温度等多个维度一起变化的情况。

数学上，把这个多维的情况用符号表示就是：
X : Ω → R n X: \Omega \to \mathbb{R}^n X:Ω→Rn

这意味着， X X X 是一个从事件空间 Ω \Omega Ω 到 n n n 维实数空间 R n \mathbb{R}^n Rn 的映射。

在实际应用中，比如在金融、物理等领域，这种"随机向量"概念非常常见，它允许我们在一个随机变量的框架内处理多维数据。

定理3.1

如果两个函数都是可测的，那么它们的复合函数也是可测的。用符号表示就是：

给定可测空间 ( Ω , F ) (\Omega, \mathcal{F}) (Ω,F)、 ( S , B ) (S, \mathcal{B}) (S,B) 和 ( T , C ) (T, \mathcal{C}) (T,C)
假设 f : Ω → S f: \Omega \to S f:Ω→S 和 g : S → T g: S \to T g:S→T 都是可测函数（标记为Ⓜ ）

那么复合函数 g ∘ f : Ω → T g \circ f : \Omega \to T g∘f:Ω→T 也是可测的。

证明中的关键是要检查 g ∘ f g \circ f g∘f 的逆像是否属于 F \mathcal{F} F。具体步骤如下：

( g ∘ f ) − 1 ( C ) = f − 1 ( g − 1 ( C ) ) ⊆ f − 1 ( B ) ⊆ F (g \circ f)^{-1}(\mathcal{C}) = f^{-1}(g^{-1}(\mathcal{C})) \subseteq f^{-1}(\mathcal{B}) \subseteq \mathcal{F} (g∘f)−1(C)=f−1(g−1(C))⊆f−1(B)⊆F

首先，因为 g g g 是可测的，意味着 g − 1 ( C ) ⊆ B g^{-1}(\mathcal{C}) \subseteq \mathcal{B} g−1(C)⊆B，即任何集合 C ∈ C C \in \mathcal{C} C∈C 的逆像 g − 1 ( C ) g^{-1}(C) g−1(C) 属于 B \mathcal{B} B。
接着，因为 f f f 也是可测的，所以 f − 1 ( B ) ⊆ F f^{-1}(B) \subseteq \mathcal{F} f−1(B)⊆F，即对于任何 B ∈ B B \in \mathcal{B} B∈B，其逆像 f − 1 ( B ) f^{-1}(B) f−1(B) 属于 F \mathcal{F} F。
因此，由 ( g ∘ f ) − 1 ( C ) = f − 1 ( g − 1 ( C ) ) (g \circ f)^{-1}(\mathcal{C}) = f^{-1}(g^{-1}(\mathcal{C})) (g∘f)−1(C)=f−1(g−1(C)) 可以推出 ( g ∘ f ) − 1 ( C ) ⊆ F (g \circ f)^{-1}(\mathcal{C}) \subseteq \mathcal{F} (g∘f)−1(C)⊆F，从而说明复合函数 g ∘ f g \circ f g∘f 也是可测的。

你可以把它想象成层层传递的可测性，就像一支接力棒，从 g g g 到 f f f，最终确保复合函数 g ∘ f g \circ f g∘f 也能传递"可测"这个特性。

推论：random variable的变换

如果 X X X 是一个随机变量 ，且 f f f 是一个 Borel 函数，那么 f ∘ X f \circ X f∘X 也是一个随机变量。这实际上是一种非常常见的操作：我们经常会对随机变量进行各种变换，而我们希望变换之后仍然保持它的"随机性"，也就是说，变换后的变量仍然是随机变量。

根据 定理3.1 ，因为 X X X 是随机变量，意味着 X X X 是可测的，而 f f f 作为 Borel 函数也是可测的。于是由定理3.1 ，我们知道 f ∘ X f \circ X f∘X 是可测的，因此 f ∘ X f \circ X f∘X 是随机变量。

比如对一个正态分布的随机变量 X X X，我们可以定义 Y = sin ⁡ ( X ) Y = \sin(X) Y=sin(X)， Y Y Y也是一个随机变量

定理3.2 连续函数的可测性

如果一个函数 f : R → R f: \mathbb{R} \to \mathbb{R} f:R→R 是连续的，那么它就是可测的（标记为 Ⓜ ）。

证明思路

首先，我们回顾一下 B ( R ) \mathcal{B}(\mathbb{R}) B(R)，它表示 R \mathbb{R} R 上的 Borel σ \sigma σ-代数。这就是所有在 R \mathbb{R} R 上的 Borel 集构成的集合。它是通过开集生成的，所以我们可以写成：
B ( R ) = σ ( O ) \mathcal{B}(\mathbb{R}) = \sigma(\mathcal{O}) B(R)=σ(O)

其中 O \mathcal{O} O 是所有开集的集合。

接下来，我们看一下 f − 1 ( B ( R ) ) f^{-1}(\mathcal{B}(\mathbb{R})) f−1(B(R))。因为 f f f 是连续的，所以它的逆像也保留了"开集"的特性。
f − 1 ( B ( R ) ) = f − 1 ( σ ( O ) ) = σ ( f − 1 ( O ) ) ⊂ σ ( O ) = B ( R ) f^{-1}(\mathcal{B}(\mathbb{R})) = f^{-1}(\sigma(\mathcal{O})) = \sigma(f^{-1}(\mathcal{O})) \subset \sigma(\mathcal{O}) = \mathcal{B}(\mathbb{R}) f−1(B(R))=f−1(σ(O))=σ(f−1(O))⊂σ(O)=B(R)

这条式子说明了， f f f 的逆像仍然在 Borel σ \sigma σ-代数 B ( R ) \mathcal{B}(\mathbb{R}) B(R) 内，因此 f f f 是可测的。

定理3.3 可测函数的线性组合

如果我们有两个可测函数 f : Ω → R f: \Omega \to \mathbb{R} f:Ω→R 和 g : Ω → R g: \Omega \to \mathbb{R} g:Ω→R，那么它们的线性组合 α f + β g \alpha f + \beta g αf+βg 也是可测的，其中 α \alpha α 和 β \beta β 是实数。

背后的逻辑

假设 f f f 和 g g g 都是可测的，这意味着它们的逆像属于测度空间 ( Ω , F ) (\Omega, \mathcal{F}) (Ω,F)。线性组合的逆像可以用 f f f 和 g g g 的逆像表示，而测度空间的结构允许我们对这些逆像进行加法和数乘运算，这就是为什么 α f + β g \alpha f + \beta g αf+βg 仍然保持可测性的原因。

关于拓展实数集的延伸

我们可以把实数集 R \mathbb{R} R 拓展到包含正负无穷的扩展实数集 R ‾ = R ∪ { − ∞ , + ∞ } \overline{\mathbb{R}} = \mathbb{R} \cup \{-\infty, +\infty\} R=R∪{−∞,+∞}。在这种拓展下，之前关于可测函数的定义和结论仍然成立

定理3.4 可测函数的极限依旧为可测性

如果我们有一列可测函数 { f n } \{f_n\} {fn}，那么这列函数的几个极限也都是可测的。

具体包括以下五种操作：

上确界 sup ⁡ n ≥ 1 f n \sup_{n \geq 1} f_n supn≥1fn：即函数序列的"最大上界"。
下确界 inf ⁡ n ≥ 1 f n \inf_{n \geq 1} f_n infn≥1fn：即函数序列的"最小下界"。
上极限 lim sup ⁡ n → ∞ f n \limsup_{n \to \infty} f_n limsupn→∞fn：这是在取极限时"最远达到"的上界值。
下极限 lim inf ⁡ n → ∞ f n \liminf_{n \to \infty} f_n liminfn→∞fn：这是在取极限时"最远达到"的下界值。
极限 lim ⁡ n → ∞ f n \lim_{n \to \infty} f_n limn→∞fn（当极限存在时）：也就是序列最终收敛到的值。

这些极限结果也同样是随机变量

随机变量的概率律（Law of X X X）

设 X X X 是定义在概率空间 ( Ω , F , P ) (\Omega, \mathcal{F}, \mathbb{P}) (Ω,F,P) 上的随机变量，那么 X X X 的概率律就是一个从 B ( R ) \mathcal{B}(\mathbb{R}) B(R) 到 [ 0 , 1 ] [0, 1] [0,1] 的概率测度，记作 P X \mathbb{P}_X PX。它表示为：

P X ( B ) = P ( X − 1 ( B ) ) = P ( X ∈ B ) \mathbb{P}_X(B) = \mathbb{P}(X^{-1}(B)) = \mathbb{P}(X \in B) PX(B)=P(X−1(B))=P(X∈B)

其中， B ∈ B ( R ) B \in \mathcal{B}(\mathbb{R}) B∈B(R) 是 R \mathbb{R} R 上的 Borel 集。

解释

可以把 P X ( B ) \mathbb{P}_X(B) PX(B)理解为" X X X落在集合 B B B中的概率"。也就是说， P X \mathbb{P}_X PX 表示随机变量 X X X 的分布，它告诉我们 X X X 的取值在实数线上的分布情况。

在直观上，这个分布 P X \mathbb{P}_X PX 告诉我们，随机变量 X X X 的可能取值在哪里出现的概率最高、哪里出现的概率最低。例如，若 X X X 是一个服从正态分布的随机变量，那么 P X \mathbb{P}_X PX 就是一个高斯分布，它反映了 X X X 的概率分布特性。

分布函数 F X F_X FX 的定义

分布函数 F X : R → [ 0 , 1 ] F_X: \mathbb{R} \to [0, 1] FX:R→[0,1] 定义为
F X ( x ) = P ( X ≤ x ) F_X(x) = \mathbb{P}(X \leq x) FX(x)=P(X≤x)

对于任意 x ∈ R x \in \mathbb{R} x∈R。也就是说， F X ( x ) F_X(x) FX(x) 表示随机变量 X X X 取值小于或等于 x x x 的概率。
F X ( x ) = P ( X − 1 ( ( − ∞ , x ] ) ) = P ( X ≤ x ) F_X(x) = \mathbb{P}(X^{-1}((-\infty, x])) = \mathbb{P}(X \leq x) FX(x)=P(X−1((−∞,x]))=P(X≤x)

分布函数的性质

F X F_X FX 具有以下四个重要性质：

单调性 ： F X F_X FX 是递增的，也就是说，当 x x x 增大时， F X ( x ) F_X(x) FX(x) 也不会减小。因为对于任意 x 1 < x 2 x_1 < x_2 x1<x2，事件 { X ≤ x 1 } \{X \leq x_1\} {X≤x1} 包含于事件 { X ≤ x 2 } \{X \leq x_2\} {X≤x2}，所以有 F X ( x 1 ) ≤ F X ( x 2 ) F_X(x_1) \leq F_X(x_2) FX(x1)≤FX(x2)。
右连续性 ： F X F_X FX 是右连续的。也就是说， lim ⁡ x → x 0 + F X ( x ) = F X ( x 0 ) \lim_{x \to x_0^+} F_X(x) = F_X(x_0) limx→x0+FX(x)=FX(x0)。这保证了在 x x x 向右逼近的过程中， F X F_X FX 不会出现突变。右连续性在概率论中很重要，因为很多关于分布的操作依赖于这种平稳的行为。
边界条件 ：当 x → − ∞ x \to -\infty x→−∞ 时， F X ( x ) → 0 F_X(x) \to 0 FX(x)→0。这是因为 X X X 取值小于极小值的概率趋于零；而当 x → + ∞ x \to +\infty x→+∞ 时， F X ( x ) → 1 F_X(x) \to 1 FX(x)→1，因为 X X X 取值小于极大值的概率趋于 1。
唯一性 ： F X F_X FX 唯一地确定了 X X X 的概率分布。因为分布函数 F X F_X FX 满足以上性质，它可以用来唯一地描述 X X X 的分布。这一点可以通过 π \pi π-系统的结果来证明。

在图片中， F X ( x ) F_X(x) FX(x) 的图像是一条递增的曲线，右端逼近 1，左端逼近 0。中间可能会出现跳跃点，但这些跳跃都是向上跳跃的，并且 F X F_X FX 在每一个点都保持右连续。

随机变量的密度函数

如果分布函数 F X F_X FX 是绝对连续的，我们可以将它表示为一个积分：
F X ( x ) = ∫ − ∞ x f X ( y ) d y F_X(x) = \int_{-\infty}^x f_X(y) \, dy FX(x)=∫−∞xfX(y)dy

其中 f X : R → [ 0 , ∞ ) f_X: \mathbb{R} \to [0, \infty) fX:R→[0,∞) 是一个 Borel 可测函数，这个函数就是 概率密度函数 （Probability Density Function, PDF）。我们可以通过 f X f_X fX 的积分来找到任意区间的概率。例如，对于 B ∈ B ( R ) B \in \mathcal{B}(\mathbb{R}) B∈B(R)，有
P X ( B ) = ∫ B f X ( x ) d x \mathbb{P}_X(B) = \int_B f_X(x) \, dx PX(B)=∫BfX(x)dx

解释

需要注意的是，密度函数 f X f_X fX 是在Lebesgue测度意义下唯一的，这也就是说它唯一地描述了随机变量 X X X 的分布（除了一个Lebesgue测度为零的集合）。

Example ：常见分布的例子

(I) 离散型随机变量

Bernoulli 分布 ： X ∼ Be ( p ) X \sim \text{Be}(p) X∼Be(p)，其中 p ∈ [ 0 , 1 ] p \in [0, 1] p∈[0,1]。这个分布表示一个只有两个可能取值的随机变量：
P ( X = 1 ) = p , P ( X = 0 ) = 1 − p \mathbb{P}(X = 1) = p, \quad \mathbb{P}(X = 0) = 1 - p P(X=1)=p,P(X=0)=1−p
Binomial 分布 ： X ∼ Bi ( n , p ) X \sim \text{Bi}(n, p) X∼Bi(n,p)，其中 n ≥ 1 n \geq 1 n≥1 且 p ∈ [ 0 , 1 ] p \in [0, 1] p∈[0,1]。这是 n n n 次独立的伯努利试验成功的次数：
P ( X = k ) = ( n k ) p k ( 1 − p ) n − k , 0 ≤ k ≤ n \mathbb{P}(X = k) = \binom{n}{k} p^k (1 - p)^{n - k}, \quad 0 \leq k \leq n P(X=k)=(kn)pk(1−p)n−k,0≤k≤n
Geometric 分布 ： X ∼ Ge ( p ) X \sim \text{Ge}(p) X∼Ge(p)，其中 p ∈ [ 0 , 1 ] p \in [0, 1] p∈[0,1]。表示直到第一次成功之前失败的次数：
P ( X = n ) = p ( 1 − p ) n − 1 , n ≥ 1 \mathbb{P}(X = n) = p (1 - p)^{n - 1}, \quad n \geq 1 P(X=n)=p(1−p)n−1,n≥1

(II) 连续型随机变量

Uniform 分布 ： X ∼ U ( a , b ) X \sim \text{U}(a, b) X∼U(a,b)，其中 a < b a < b a<b。这是在区间 [ a , b ] [a, b] [a,b] 上均匀分布的随机变量，密度函数为
f X ( x ) = { 1 b − a if x ∈ [ a , b ] 0 otherwise f_X(x) = \begin{cases} \frac{1}{b - a} & \text{if } x \in [a, b] \\ 0 & \text{otherwise} \end{cases} fX(x)={b−a10if x∈[a,b]otherwise
Exponential 分布 ： X ∼ Exp ( λ ) X \sim \text{Exp}(\lambda) X∼Exp(λ)，其中 λ > 0 \lambda > 0 λ>0。这是一个用于描述事件时间的分布，密度函数为
f X ( x ) = { λ e − λ x if x > 0 0 otherwise f_X(x) = \begin{cases} \lambda e^{-\lambda x} & \text{if } x > 0 \\ 0 & \text{otherwise} \end{cases} fX(x)={λe−λx0if x>0otherwise
Normal/Gaussian 分布 ： X ∼ N ( μ , σ 2 ) X \sim \mathcal{N}(\mu, \sigma^2) X∼N(μ,σ2)，其中 μ ∈ R , σ > 0 \mu \in \mathbb{R}, \sigma > 0 μ∈R,σ>0。这是非常常见的正态分布，密度函数为
f X ( x ) = 1 σ 2 π e − ( x − μ ) 2 2 σ 2 , x ∈ R f_X(x) = \frac{1}{\sigma \sqrt{2 \pi}} e^{-\frac{(x - \mu)^2}{2 \sigma^2}}, \quad x \in \mathbb{R} fX(x)=σ2π 1e−2σ2(x−μ)2,x∈R

由随机变量生成的 σ \sigma σ-代数

给定一个随机变量 X X X，定义在概率空间 ( Ω , F , P ) (\Omega, \mathcal{F}, \mathbb{P}) (Ω,F,P)上，我们可以找到一个最小的 σ \sigma σ-代数使得 X X X是可测的。这个 σ \sigma σ-代数被称为由 X X X生成的 σ \sigma σ-代数 ，记作 σ ( X ) \sigma(X) σ(X)。它定义为：
σ ( X ) : = X − 1 ( B ( R ) ) = { X − 1 ( B ) ∣ B ∈ B ( R ) } . \sigma(X) := X^{-1}(\mathcal{B}(\mathbb{R})) = \{X^{-1}(B) | B \in \mathcal{B}(\mathbb{R})\}. σ(X):=X−1(B(R))={X−1(B)∣B∈B(R)}.

解释

σ ( X ) \sigma(X) σ(X)包含了所有可以通过 X X X来描述的事件。换句话说，如果我们知道 σ ( X ) \sigma(X) σ(X)中的信息，那么我们就能"完全"地知道 X X X的行为。例如，假设 X X X是一个连续随机变量，那么 σ ( X ) \sigma(X) σ(X)就包含了所有关于 X X X的事件，比如 X ≤ x X \leq x X≤x的事件集合。。

定理3.5 σ ( Y ) \sigma(Y) σ(Y)-可测性

假设我们有两个随机变量 X X X和 Y Y Y，定义在同一个概率空间 ( Ω , F , P ) (\Omega, \mathcal{F}, \mathbb{P}) (Ω,F,P)上。如果 X X X是 σ ( Y ) \sigma(Y) σ(Y)-可测的，这意味着 X X X可以"通过 Y Y Y来表示"。

X X X是 σ ( Y ) \sigma(Y) σ(Y)-可测当且仅当存在一个可测函数 f : R → R f : \mathbb{R} \to \mathbb{R} f:R→R使得 X = f ( Y ) X = f(Y) X=f(Y)。

证明思路

假设 X = f ( Y ) X = f(Y) X=f(Y)，其中 f f f是可测的。要证明 X X X是 σ ( Y ) \sigma(Y) σ(Y)-可测，我们可以使用逆像的概念：

X − 1 ( B ( R ) ) = Y − 1 ( f − 1 ( B ( R ) ) ) ⊆ Y − 1 ( B ( R ) ) = σ ( Y ) . X^{-1}(\mathcal{B}(\mathbb{R})) = Y^{-1}(f^{-1}(\mathcal{B}(\mathbb{R}))) \subseteq Y^{-1}(\mathcal{B}(\mathbb{R})) = \sigma(Y). X−1(B(R))=Y−1(f−1(B(R)))⊆Y−1(B(R))=σ(Y).

因为 f f f是可测的， f − 1 ( B ( R ) ) ⊆ B ( R ) f^{-1}(\mathcal{B}(\mathbb{R})) \subseteq \mathcal{B}(\mathbb{R}) f−1(B(R))⊆B(R)，所以 X − 1 ( B ( R ) ) ⊆ σ ( Y ) X^{-1}(\mathcal{B}(\mathbb{R})) \subseteq \sigma(Y) X−1(B(R))⊆σ(Y)。这说明 X X X是 σ ( Y ) \sigma(Y) σ(Y)-可测的。

可以把 σ ( Y ) \sigma(Y) σ(Y)-可测性理解为： X X X的行为可以通过 Y Y Y来表示。比如，如果 X X X和 Y Y Y表示相关的物理量（比如温度和气压），并且 X X X可以写成 Y Y Y的某种函数形式，那么我们说 X X X是 σ ( Y ) \sigma(Y) σ(Y)-可测的，这就意味着所有关于 X X X的事件可以通过 Y Y Y的事件来描述。

由随机变量生成的 σ \sigma σ-代数

假设我们有一组随机变量 { X i } i ∈ I \{X_i\}_{i \in I} {Xi}i∈I，定义在同一概率空间 ( Ω , F , P ) (\Omega, \mathcal{F}, \mathbb{P}) (Ω,F,P) 上。由这些随机变量 生成的 σ \sigma σ-代数，记作 σ ( X i ∣ i ∈ I ) \sigma(X_i \mid i \in I) σ(Xi∣i∈I)，是能够使得所有 X i X_i Xi 可测的最小 σ \sigma σ-代数。

具体来说，这个 σ \sigma σ-代数可以表示为：
σ ( X i ∣ i ∈ I ) : = σ ( ⋃ i ∈ I X i − 1 ( B ( R ) ) ) = σ ( { X i − 1 ( B ) ∣ B ∈ B ( R ) , i ∈ I } ) . \sigma(X_i \mid i \in I) := \sigma\left(\bigcup_{i \in I} X_i^{-1}(\mathcal{B}(\mathbb{R}))\right) = \sigma\left(\{X_i^{-1}(B) \mid B \in \mathcal{B}(\mathbb{R}), i \in I\}\right). σ(Xi∣i∈I):=σ(i∈I⋃Xi−1(B(R)))=σ({Xi−1(B)∣B∈B(R),i∈I}).

解释

这就是说， σ ( X i ∣ i ∈ I ) \sigma(X_i \mid i \in I) σ(Xi∣i∈I)包含了所有可以通过任意一个 X i X_i Xi 来描述的事件。它是所有这些 X i X_i Xi 的信息的集合，可以理解为我们能够通过观测这组随机变量 { X i } \{X_i\} {Xi} 得到全部的信息。

需要注意的是，在构建 σ ( X i ∣ i ∈ I ) \sigma(X_i \mid i \in I) σ(Xi∣i∈I)时，我们不能仅仅取各个 σ ( X i ) \sigma(X_i) σ(Xi)的并集，因为并集不一定是 σ \sigma σ-代数。为确保构成 σ \sigma σ-代数，我们需要再取一个 σ \sigma σ运算，这就像是在并集上"封闭"一次，使其满足 σ \sigma σ-代数的性质。

假设场景

假设我们有一个概率空间 ( Ω , F , P ) (\Omega, \mathcal{F}, \mathbb{P}) (Ω,F,P)，其中样本空间 Ω = { 1 , 2 , 3 , 4 } \Omega = \{1, 2, 3, 4\} Ω={1,2,3,4}。定义两个随机变量 X X X 和 Y Y Y，它们的取值如下：

X X X 只取值 1 1 1 和 2 2 2：
- X ( 1 ) = 1 X(1) = 1 X(1)=1
- X ( 2 ) = 1 X(2) = 1 X(2)=1
- X ( 3 ) = 2 X(3) = 2 X(3)=2
- X ( 4 ) = 2 X(4) = 2 X(4)=2
Y Y Y 只取值 1 1 1 和 2 2 2：
- Y ( 1 ) = 1 Y(1) = 1 Y(1)=1
- Y ( 2 ) = 2 Y(2) = 2 Y(2)=2
- Y ( 3 ) = 1 Y(3) = 1 Y(3)=1
- Y ( 4 ) = 2 Y(4) = 2 Y(4)=2

生成的 σ \sigma σ-代数

由 X X X 生成的 σ \sigma σ-代数 σ ( X ) \sigma(X) σ(X)：

随机变量 X X X 的取值可以将 Ω \Omega Ω 划分为两个集合：
- { 1 , 2 } \{1, 2\} {1,2}，对应 X = 1 X = 1 X=1
- { 3 , 4 } \{3, 4\} {3,4}，对应 X = 2 X = 2 X=2
因此， σ ( X ) \sigma(X) σ(X) 是由 Ω \Omega Ω、 { 1 , 2 } \{1, 2\} {1,2}、 { 3 , 4 } \{3, 4\} {3,4} 和空集 ∅ \emptyset ∅ 构成的集合系统，即
σ ( X ) = { ∅ , { 1 , 2 } , { 3 , 4 } , Ω } . \sigma(X) = \{\emptyset, \{1, 2\}, \{3, 4\}, \Omega\}. σ(X)={∅,{1,2},{3,4},Ω}.
由 Y Y Y 生成的 σ \sigma σ-代数 σ ( Y ) \sigma(Y) σ(Y)：

随机变量 Y Y Y 的取值将 Ω \Omega Ω 划分为另外两个集合：
- { 1 , 3 } \{1, 3\} {1,3}，对应 Y = 1 Y = 1 Y=1
- { 2 , 4 } \{2, 4\} {2,4}，对应 Y = 2 Y = 2 Y=2
因此， σ ( Y ) \sigma(Y) σ(Y) 是由 Ω \Omega Ω、 { 1 , 3 } \{1, 3\} {1,3}、 { 2 , 4 } \{2, 4\} {2,4} 和空集 ∅ \emptyset ∅ 构成的集合系统，即
σ ( Y ) = { ∅ , { 1 , 3 } , { 2 , 4 } , Ω } . \sigma(Y) = \{\emptyset, \{1, 3\}, \{2, 4\}, \Omega\}. σ(Y)={∅,{1,3},{2,4},Ω}.

直接取并集的问题

如果我们直接取 σ ( X ) \sigma(X) σ(X) 和 σ ( Y ) \sigma(Y) σ(Y) 的并集，会得到如下集合：
σ ( X ) ∪ σ ( Y ) = { ∅ , { 1 , 2 } , { 3 , 4 } , { 1 , 3 } , { 2 , 4 } , Ω } . \sigma(X) \cup \sigma(Y) = \{\emptyset, \{1, 2\}, \{3, 4\}, \{1, 3\}, \{2, 4\}, \Omega\}. σ(X)∪σ(Y)={∅,{1,2},{3,4},{1,3},{2,4},Ω}.

但这个集合系统不是一个 σ \sigma σ-代数 。为什么呢？因为它不满足 σ \sigma σ-代数的闭合性条件。例如：

{ 1 , 2 } \{1, 2\} {1,2} 和 { 1 , 3 } \{1, 3\} {1,3} 都在 σ ( X ) ∪ σ ( Y ) \sigma(X) \cup \sigma(Y) σ(X)∪σ(Y) 中，但它们的交集 { 1 } \{1\} {1} 不在这个集合里。
{ 1 , 2 } \{1, 2\} {1,2} 的补集 { 3 , 4 } \{3, 4\} {3,4} 是在 σ ( X ) \sigma(X) σ(X)中的，但这只是一个特殊情况。一般情况下，我们需要确保任意集合的补集也在集合系统内，而这里无法保证。

如何构造最小的 σ \sigma σ-代数

为了获得一个满足 σ \sigma σ-代数闭合性的集合系统，我们需要对并集 σ ( X ) ∪ σ ( Y ) \sigma(X) \cup \sigma(Y) σ(X)∪σ(Y) 进行" σ \sigma σ运算"，即取其闭包，包含所有可能的补集和交集。

通过构造，我们可以得到：
σ ( X , Y ) = { ∅ , { 1 } , { 2 } , { 3 } , { 4 } , { 1 , 2 } , { 1 , 3 } , { 2 , 4 } , { 3 , 4 } , Ω } . \sigma(X, Y) = \{\emptyset, \{1\}, \{2\}, \{3\}, \{4\}, \{1, 2\}, \{1, 3\}, \{2, 4\}, \{3, 4\}, \Omega\}. σ(X,Y)={∅,{1},{2},{3},{4},{1,2},{1,3},{2,4},{3,4},Ω}.

这个系统就是由 X X X 和 Y Y Y 共同生成的最小 σ \sigma σ-代数，记作 σ ( X , Y ) \sigma(X, Y) σ(X,Y)。它包含了所有可以通过 X X X 和 Y Y Y 的值所确定的事件集合，并且满足 σ \sigma σ-代数的闭合性要求。