【机器人学中的状态估计】第2章概率论基础

【机器人学中的状态估计】2.1概率密度函数

[2.1.1 概率基本定义](#2.1.1 概率基本定义)
- [2.1.1 概率密度函数 (Probability Density Function, PDF)](#2.1.1 概率密度函数 (Probability Density Function, PDF))
- [2.1.2 联合概率密度 (Joint Probability Density)](#2.1.2 联合概率密度 (Joint Probability Density))
- [2.1.3 边缘概率密度 (Marginal Probability Density)](#2.1.3 边缘概率密度 (Marginal Probability Density))
- [2.1.4 条件概率密度 (Conditional Probability Density)](#2.1.4 条件概率密度 (Conditional Probability Density))
- [2.1.5 全概率公式 (Law of Total Probability)](#2.1.5 全概率公式 (Law of Total Probability))
- [2.1.6 贝叶斯公式 (Bayes' Theorem)](#2.1.6 贝叶斯公式 (Bayes' Theorem))
[2.1.2 矩（Moments）](#2.1.2 矩（Moments）)
- 一阶矩（均值）
- 二阶矩（方差）
[2.1.3 样本均值和样本方差](#2.1.3 样本均值和样本方差)
[2.1.4 统计独立性和不相关性](#2.1.4 统计独立性和不相关性)
[2.1.5 归一化积（Normalized Product）](#2.1.5 归一化积（Normalized Product）)
[2.1.6 香农信息和互信息](#2.1.6 香农信息和互信息)

2.1.1 概率基本定义

2.1.1 概率密度函数 (Probability Density Function, PDF)

对于连续随机变量 X X X，其概率密度函数 f X ( x ) f_X(x) fX(x) 满足：

非负性： f X ( x ) ≥ 0 , ∀ x f_X(x) \geq 0 \quad , \forall x fX(x)≥0,∀x
归一性： ∫ − ∞ ∞ f X ( x ) d x = 1 \int_{-\infty}^{\infty} f_X(x) \, dx = 1 ∫−∞∞fX(x)dx=1
概率计算： P ( a ≤ X ≤ b ) = ∫ a b f X ( x ) d x P(a \leq X \leq b) = \int_a^b f_X(x) \, dx P(a≤X≤b)=∫abfX(x)dx

正态分布示例
f X ( x ) = 1 2 π σ 2 exp ⁡ ( − ( x − μ ) 2 2 σ 2 ) f_X(x) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right) fX(x)=2πσ2 1exp(−2σ2(x−μ)2)

2.1.2 联合概率密度 (Joint Probability Density)

对于两个连续随机变量 X X X 和 Y Y Y，联合概率密度 f X , Y ( x , y ) f_{X,Y}(x,y) fX,Y(x,y) 满足：

非负性： f X , Y ( x , y ) ≥ 0 , ∀ x , y f_{X,Y}(x,y) \geq 0 \quad , \forall x,y fX,Y(x,y)≥0,∀x,y
归一性： ∫ − ∞ ∞ ∫ − ∞ ∞ f X , Y ( x , y ) d x d y = 1 \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} f_{X,Y}(x,y) \, dx \, dy = 1 ∫−∞∞∫−∞∞fX,Y(x,y)dxdy=1
概率计算： P ( ( X , Y ) ∈ D ) = ∬ D f X , Y ( x , y ) d x d y P((X,Y) \in D) = \iint_D f_{X,Y}(x,y) \, dx \, dy P((X,Y)∈D)=∬DfX,Y(x,y)dxdy

2.1.3 边缘概率密度 (Marginal Probability Density)

从联合分布得到单个变量的分布（对另一个变量积分即可，这个过程称为边缘化，marginalization）：

f X ( x ) = ∫ − ∞ ∞ f X , Y ( x , y ) d y f_X(x) = \int_{-\infty}^{\infty} f_{X,Y}(x,y) \, dy fX(x)=∫−∞∞fX,Y(x,y)dy
f Y ( y ) = ∫ − ∞ ∞ f X , Y ( x , y ) d x f_Y(y) = \int_{-\infty}^{\infty} f_{X,Y}(x,y) \, dx fY(y)=∫−∞∞fX,Y(x,y)dx

【统计至简】边缘概率密度函数理解与计算

2.1.4 条件概率密度 (Conditional Probability Density)

定义：

给定 Y = y Y=y Y=y 时 X X X 的条件概率密度：

f X ∣ Y ( x ∣ y ) = f X , Y ( x , y ) f Y ( y ) , f Y ( y ) > 0 f_{X|Y}(x|y) = \frac{f_{X,Y}(x,y)}{f_Y(y)}, \quad f_Y(y) > 0 fX∣Y(x∣y)=fY(y)fX,Y(x,y),fY(y)>0

∫ − ∞ ∞ f X ∣ Y ( x ∣ y ) d x = 1 \int_{-\infty}^{\infty} f_{X|Y}(x|y) \, dx = 1 ∫−∞∞fX∣Y(x∣y)dx=1

性质：

非负性： f X ∣ Y ( x ∣ y ) ≥ 0 f_{X|Y}(x|y) \geq 0 fX∣Y(x∣y)≥0
归一性： ∫ − ∞ ∞ f X ∣ Y ( x ∣ y ) d x = 1 \int_{-\infty}^{\infty} f_{X|Y}(x|y) dx = 1 ∫−∞∞fX∣Y(x∣y)dx=1

2.1.5 全概率公式 (Law of Total Probability)

连续形式
f X ( x ) = ∫ − ∞ ∞ f X ∣ Y ( x ∣ y ) f Y ( y ) d y f_X(x) = \int_{-\infty}^{\infty} f_{X|Y}(x|y) f_Y(y) \, dy fX(x)=∫−∞∞fX∣Y(x∣y)fY(y)dy
离散形式
P ( A ) = ∑ i P ( A ∣ B i ) P ( B i ) P(A) = \sum_i P(A|B_i) P(B_i) P(A)=∑iP(A∣Bi)P(Bi)

2.1.6 贝叶斯公式 (Bayes' Theorem)

基本形式： P ( x ∣ y ) = P ( y ∣ x ) P ( x ) P ( y ) P(x|y) = \frac{P(y|x) P(x)}{P(y)} P(x∣y)=P(y)P(y∣x)P(x)

x x x:可以表示状态
y y y:可以表示为观测数据
P ( y ∣ x ) P(y|x) P(y∣x): 传感器模型
P ( x ∣ y ) P(x|y) P(x∣y): 状态估计

连续随机变量形式： f X ∣ Y ( x ∣ y ) = f Y ∣ X ( y ∣ x ) f X ( x ) f Y ( y ) = f Y ∣ X ( y ∣ x ) f X ( x ) ∫ − ∞ ∞ f Y ∣ X ( y ∣ x ′ ) f X ( x ′ ) d x ′ f_{X|Y}(x|y) = \frac{f_{Y|X}(y|x) f_X(x)}{f_Y(y)} = \frac{f_{Y|X}(y|x) f_X(x)}{\int_{-\infty}^{\infty} f_{Y|X}(y|x') f_X(x') \, dx'} fX∣Y(x∣y)=fY(y)fY∣X(y∣x)fX(x)=∫−∞∞fY∣X(y∣x′)fX(x′)dx′fY∣X(y∣x)fX(x)
参数形式： p ( θ ∣ X ) = p ( X ∣ θ ) p ( θ ) p ( X ) p(\theta|X) = \frac{p(X|\theta) p(\theta)}{p(X)} p(θ∣X)=p(X)p(X∣θ)p(θ)

其中：

θ \theta θ：模型参数
X X X：观测数据
p ( θ ∣ X ) p(\theta|X) p(θ∣X)是后验分布
p ( X ∣ θ ) p(X|\theta) p(X∣θ)是似然函数
p ( θ ) p(\theta) p(θ)是先验分布
p ( X ) p(X) p(X)是证据

核心框架

后验 ∝ 似然 × 先验 \text{后验} \propto \text{似然}\times\text{先验} 后验∝似然×先验
p ( θ ∣ X ) ∝ p ( X ∣ θ ) p ( θ ) p(\theta|X) \propto p(X|\theta) p(\theta) p(θ∣X)∝p(X∣θ)p(θ)
p ( θ ∣ X ) = p ( X ∣ θ ) p ( θ ) ∫ p ( X ∣ θ ) p ( θ ) d θ p(\theta|X) = \frac{p(X|\theta) p(\theta)}{\int p(X|\theta) p(\theta) \, d\theta} p(θ∣X)=∫p(X∣θ)p(θ)dθp(X∣θ)p(θ)

各分量

后验分布: p ( θ ∣ X ) \text{后验分布: } p(\theta|X) 后验分布: p(θ∣X)
似然函数: p ( X ∣ θ ) \text{似然函数: } p(X|\theta) 似然函数: p(X∣θ)
先验分布: p ( θ ) \text{先验分布: } p(\theta) 先验分布: p(θ)
证据: p ( X ) = ∫ p ( X ∣ θ ) p ( θ ) d θ \text{证据: } p(X) = \int p(X|\theta) p(\theta) \, d\theta 证据: p(X)=∫p(X∣θ)p(θ)dθ

2.1.2 矩（Moments）

一阶矩（均值）

随机变量 X X X 的一阶矩是期望值，表示分布的中心位置：
μ = E [ X ] = ∫ − ∞ ∞ x f X ( x ) d x \mu = \mathbb{E}[X] = \int_{-\infty}^{\infty} x f_X(x) \, dx μ=E[X]=∫−∞∞xfX(x)dx
μ = E [ X ] = ∑ i x i p X ( x i ) \mu = \mathbb{E}[X] = \sum_{i} x_i p_X(x_i) μ=E[X]=∑ixipX(xi)

二阶矩（方差）

σ 2 = E [ ( X − μ ) 2 ] = ∫ − ∞ ∞ ( x − μ ) 2 f X ( x ) d x \sigma^2 = \mathbb{E}[(X - \mu)^2] = \int_{-\infty}^{\infty} (x - \mu)^2 f_X(x) \, dx σ2=E[(X−μ)2]=∫−∞∞(x−μ)2fX(x)dx
σ 2 = E [ X 2 ] − ( E [ X ] ) 2 \sigma^2 = \mathbb{E}[X^2] - (\mathbb{E}[X])^2 σ2=E[X2]−(E[X])2

2.1.3 样本均值和样本方差

给定样本 x 1 , x 2 , ... , x n x_1, x_2, \ldots, x_n x1,x2,...,xn：
x ˉ = 1 n ∑ i = 1 n x i \bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_i xˉ=n1∑i=1nxi

无偏样本方差：
s 2 = 1 n − 1 ∑ i = 1 n ( x i − x ˉ ) 2 s^2 = \frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2 s2=n−11∑i=1n(xi−xˉ)2

有偏样本方差
s n 2 = 1 n ∑ i = 1 n ( x i − x ˉ ) 2 s_n^2 = \frac{1}{n} \sum_{i=1}^{n} (x_i - \bar{x})^2 sn2=n1∑i=1n(xi−xˉ)2

无偏样本方差归一化参数分母是 n − 1 n-1 n−1而不是因为 n n n，这称为贝塞尔修正。样本方差使用了 n n n个测量值和样本均值的差值，样本均值本身就是通过这 n n n个测量值得到的，他们之间存在一个轻微的相关性，于是就出现了这样的一个轻微的修正量。

2.1.4 统计独立性和不相关性

统计独立性

两个随机变量 X X X 和 Y Y Y 独立当且仅当： f X , Y ( x , y ) = f X ( x ) f Y ( y ) f_{X,Y}(x,y) = f_X(x) f_Y(y) fX,Y(x,y)=fX(x)fY(y)

或等价： F X , Y ( x , y ) = F X ( x ) F Y ( y ) F_{X,Y}(x,y) = F_X(x) F_Y(y) FX,Y(x,y)=FX(x)FY(y)
不相关性

两个随机变量 X X X 和 Y Y Y 不相关当且仅当（用协方差表示，协方差为0）： Cov ( X , Y ) = E [ ( X − μ X ) ( Y − μ Y ) ] = 0 \text{Cov}(X,Y) = \mathbb{E}[(X - \mu_X)(Y - \mu_Y)] = 0 Cov(X,Y)=E[(X−μX)(Y−μY)]=0

或等价，用期望表示： E [ X Y ] = E [ X ] E [ Y ] \mathbb{E}[XY] = \mathbb{E}[X]\mathbb{E}[Y] E[XY]=E[X]E[Y]
关系：独立 ⇒ 不相关，但反之不一定成立。

（对于高斯概率密度函数而言，不相关意味着独立）
协方差和相关系数
Cov ( X , Y ) = E [ X Y ] − E [ X ] E [ Y ] \text{Cov}(X,Y) = \mathbb{E}[XY] - \mathbb{E}[X]\mathbb{E}[Y] Cov(X,Y)=E[XY]−E[X]E[Y]
ρ X , Y = Cov ( X , Y ) σ X σ Y , − 1 ≤ ρ X , Y ≤ 1 \rho_{X,Y} = \frac{\text{Cov}(X,Y)}{\sigma_X \sigma_Y}, \quad -1 \leq \rho_{X,Y} \leq 1 ρX,Y=σXσYCov(X,Y),−1≤ρX,Y≤1

2.1.5 归一化积（Normalized Product）

两个概率密度函数的归一化积常用于贝叶斯融合：
p ( x ) = p 1 ( x ) p 2 ( x ) ∫ p 1 ( x ) p 2 ( x ) d x p(x) = \frac{p_1(x) p_2(x)}{\int p_1(x) p_2(x) \, dx} p(x)=∫p1(x)p2(x)dxp1(x)p2(x)

对于高斯分布的特殊情况，两个高斯分布的归一化积仍是高斯分布。

2.1.6 香农信息和互信息

。。。 TODO

【机器人学中的状态估计】第2章 概率论基础