【机器人学中的状态估计】2.1概率密度函数
- [2.1.1 概率基本定义](#2.1.1 概率基本定义)
-
- [2.1.1 概率密度函数 (Probability Density Function, PDF)](#2.1.1 概率密度函数 (Probability Density Function, PDF))
- [2.1.2 联合概率密度 (Joint Probability Density)](#2.1.2 联合概率密度 (Joint Probability Density))
- [2.1.3 边缘概率密度 (Marginal Probability Density)](#2.1.3 边缘概率密度 (Marginal Probability Density))
- [2.1.4 条件概率密度 (Conditional Probability Density)](#2.1.4 条件概率密度 (Conditional Probability Density))
- [2.1.5 全概率公式 (Law of Total Probability)](#2.1.5 全概率公式 (Law of Total Probability))
- [2.1.6 贝叶斯公式 (Bayes' Theorem)](#2.1.6 贝叶斯公式 (Bayes' Theorem))
- [2.1.2 矩(Moments)](#2.1.2 矩(Moments))
- [2.1.3 样本均值和样本方差](#2.1.3 样本均值和样本方差)
- [2.1.4 统计独立性和不相关性](#2.1.4 统计独立性和不相关性)
- [2.1.5 归一化积(Normalized Product)](#2.1.5 归一化积(Normalized Product))
- [2.1.6 香农信息和互信息](#2.1.6 香农信息和互信息)
2.1.1 概率基本定义
2.1.1 概率密度函数 (Probability Density Function, PDF)
对于连续随机变量 X X X,其概率密度函数 f X ( x ) f_X(x) fX(x) 满足:
- 非负性: f X ( x ) ≥ 0 , ∀ x f_X(x) \geq 0 \quad , \forall x fX(x)≥0,∀x
- 归一性: ∫ − ∞ ∞ f X ( x ) d x = 1 \int_{-\infty}^{\infty} f_X(x) \, dx = 1 ∫−∞∞fX(x)dx=1
- 概率计算: P ( a ≤ X ≤ b ) = ∫ a b f X ( x ) d x P(a \leq X \leq b) = \int_a^b f_X(x) \, dx P(a≤X≤b)=∫abfX(x)dx
正态分布示例
f X ( x ) = 1 2 π σ 2 exp ( − ( x − μ ) 2 2 σ 2 ) f_X(x) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right) fX(x)=2πσ2 1exp(−2σ2(x−μ)2)
2.1.2 联合概率密度 (Joint Probability Density)
对于两个连续随机变量 X X X 和 Y Y Y,联合概率密度 f X , Y ( x , y ) f_{X,Y}(x,y) fX,Y(x,y) 满足:
- 非负性: f X , Y ( x , y ) ≥ 0 , ∀ x , y f_{X,Y}(x,y) \geq 0 \quad , \forall x,y fX,Y(x,y)≥0,∀x,y
- 归一性: ∫ − ∞ ∞ ∫ − ∞ ∞ f X , Y ( x , y ) d x d y = 1 \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} f_{X,Y}(x,y) \, dx \, dy = 1 ∫−∞∞∫−∞∞fX,Y(x,y)dxdy=1
- 概率计算: P ( ( X , Y ) ∈ D ) = ∬ D f X , Y ( x , y ) d x d y P((X,Y) \in D) = \iint_D f_{X,Y}(x,y) \, dx \, dy P((X,Y)∈D)=∬DfX,Y(x,y)dxdy
2.1.3 边缘概率密度 (Marginal Probability Density)
从联合分布得到单个变量的分布(对另一个变量积分即可,这个过程称为边缘化,marginalization):
- f X ( x ) = ∫ − ∞ ∞ f X , Y ( x , y ) d y f_X(x) = \int_{-\infty}^{\infty} f_{X,Y}(x,y) \, dy fX(x)=∫−∞∞fX,Y(x,y)dy
- f Y ( y ) = ∫ − ∞ ∞ f X , Y ( x , y ) d x f_Y(y) = \int_{-\infty}^{\infty} f_{X,Y}(x,y) \, dx fY(y)=∫−∞∞fX,Y(x,y)dx
2.1.4 条件概率密度 (Conditional Probability Density)
定义:
给定 Y = y Y=y Y=y 时 X X X 的条件概率密度:
f X ∣ Y ( x ∣ y ) = f X , Y ( x , y ) f Y ( y ) , f Y ( y ) > 0 f_{X|Y}(x|y) = \frac{f_{X,Y}(x,y)}{f_Y(y)}, \quad f_Y(y) > 0 fX∣Y(x∣y)=fY(y)fX,Y(x,y),fY(y)>0
∫ − ∞ ∞ f X ∣ Y ( x ∣ y ) d x = 1 \int_{-\infty}^{\infty} f_{X|Y}(x|y) \, dx = 1 ∫−∞∞fX∣Y(x∣y)dx=1
性质:
- 非负性: f X ∣ Y ( x ∣ y ) ≥ 0 f_{X|Y}(x|y) \geq 0 fX∣Y(x∣y)≥0
- 归一性: ∫ − ∞ ∞ f X ∣ Y ( x ∣ y ) d x = 1 \int_{-\infty}^{\infty} f_{X|Y}(x|y) dx = 1 ∫−∞∞fX∣Y(x∣y)dx=1
2.1.5 全概率公式 (Law of Total Probability)
-
连续形式
f X ( x ) = ∫ − ∞ ∞ f X ∣ Y ( x ∣ y ) f Y ( y ) d y f_X(x) = \int_{-\infty}^{\infty} f_{X|Y}(x|y) f_Y(y) \, dy fX(x)=∫−∞∞fX∣Y(x∣y)fY(y)dy -
离散形式
P ( A ) = ∑ i P ( A ∣ B i ) P ( B i ) P(A) = \sum_i P(A|B_i) P(B_i) P(A)=∑iP(A∣Bi)P(Bi)
2.1.6 贝叶斯公式 (Bayes' Theorem)
- 基本形式: P ( x ∣ y ) = P ( y ∣ x ) P ( x ) P ( y ) P(x|y) = \frac{P(y|x) P(x)}{P(y)} P(x∣y)=P(y)P(y∣x)P(x)
x x x:可以表示状态
y y y:可以表示为观测数据
P ( y ∣ x ) P(y|x) P(y∣x): 传感器模型
P ( x ∣ y ) P(x|y) P(x∣y): 状态估计
-
连续随机变量形式: f X ∣ Y ( x ∣ y ) = f Y ∣ X ( y ∣ x ) f X ( x ) f Y ( y ) = f Y ∣ X ( y ∣ x ) f X ( x ) ∫ − ∞ ∞ f Y ∣ X ( y ∣ x ′ ) f X ( x ′ ) d x ′ f_{X|Y}(x|y) = \frac{f_{Y|X}(y|x) f_X(x)}{f_Y(y)} = \frac{f_{Y|X}(y|x) f_X(x)}{\int_{-\infty}^{\infty} f_{Y|X}(y|x') f_X(x') \, dx'} fX∣Y(x∣y)=fY(y)fY∣X(y∣x)fX(x)=∫−∞∞fY∣X(y∣x′)fX(x′)dx′fY∣X(y∣x)fX(x)
-
参数形式: p ( θ ∣ X ) = p ( X ∣ θ ) p ( θ ) p ( X ) p(\theta|X) = \frac{p(X|\theta) p(\theta)}{p(X)} p(θ∣X)=p(X)p(X∣θ)p(θ)
其中:
- θ \theta θ:模型参数
- X X X:观测数据
- p ( θ ∣ X ) p(\theta|X) p(θ∣X)是后验分布
- p ( X ∣ θ ) p(X|\theta) p(X∣θ)是似然函数
- p ( θ ) p(\theta) p(θ)是先验分布
- p ( X ) p(X) p(X)是证据
核心框架
-
后验 ∝ 似然 × 先验 \text{后验} \propto \text{似然}\times\text{先验} 后验∝似然×先验
-
p ( θ ∣ X ) ∝ p ( X ∣ θ ) p ( θ ) p(\theta|X) \propto p(X|\theta) p(\theta) p(θ∣X)∝p(X∣θ)p(θ)
-
p ( θ ∣ X ) = p ( X ∣ θ ) p ( θ ) ∫ p ( X ∣ θ ) p ( θ ) d θ p(\theta|X) = \frac{p(X|\theta) p(\theta)}{\int p(X|\theta) p(\theta) \, d\theta} p(θ∣X)=∫p(X∣θ)p(θ)dθp(X∣θ)p(θ)
各分量
- 后验分布: p ( θ ∣ X ) \text{后验分布: } p(\theta|X) 后验分布: p(θ∣X)
- 似然函数: p ( X ∣ θ ) \text{似然函数: } p(X|\theta) 似然函数: p(X∣θ)
- 先验分布: p ( θ ) \text{先验分布: } p(\theta) 先验分布: p(θ)
- 证据: p ( X ) = ∫ p ( X ∣ θ ) p ( θ ) d θ \text{证据: } p(X) = \int p(X|\theta) p(\theta) \, d\theta 证据: p(X)=∫p(X∣θ)p(θ)dθ
2.1.2 矩(Moments)
一阶矩(均值)
随机变量 X X X 的一阶矩是期望值,表示分布的中心位置:
μ = E [ X ] = ∫ − ∞ ∞ x f X ( x ) d x \mu = \mathbb{E}[X] = \int_{-\infty}^{\infty} x f_X(x) \, dx μ=E[X]=∫−∞∞xfX(x)dx
μ = E [ X ] = ∑ i x i p X ( x i ) \mu = \mathbb{E}[X] = \sum_{i} x_i p_X(x_i) μ=E[X]=∑ixipX(xi)
二阶矩(方差)
σ 2 = E [ ( X − μ ) 2 ] = ∫ − ∞ ∞ ( x − μ ) 2 f X ( x ) d x \sigma^2 = \mathbb{E}[(X - \mu)^2] = \int_{-\infty}^{\infty} (x - \mu)^2 f_X(x) \, dx σ2=E[(X−μ)2]=∫−∞∞(x−μ)2fX(x)dx
σ 2 = E [ X 2 ] − ( E [ X ] ) 2 \sigma^2 = \mathbb{E}[X^2] - (\mathbb{E}[X])^2 σ2=E[X2]−(E[X])2
2.1.3 样本均值和样本方差
给定样本 x 1 , x 2 , ... , x n x_1, x_2, \ldots, x_n x1,x2,...,xn:
x ˉ = 1 n ∑ i = 1 n x i \bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_i xˉ=n1∑i=1nxi
无偏样本方差:
s 2 = 1 n − 1 ∑ i = 1 n ( x i − x ˉ ) 2 s^2 = \frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2 s2=n−11∑i=1n(xi−xˉ)2
有偏样本方差
s n 2 = 1 n ∑ i = 1 n ( x i − x ˉ ) 2 s_n^2 = \frac{1}{n} \sum_{i=1}^{n} (x_i - \bar{x})^2 sn2=n1∑i=1n(xi−xˉ)2
无偏样本方差归一化参数分母是 n − 1 n-1 n−1而不是因为 n n n,这称为贝塞尔修正。样本方差使用了 n n n个测量值
和样本均值
的差值,样本均值
本身就是通过这 n n n个测量值
得到的,他们之间存在一个轻微的相关性,于是就出现了这样的一个轻微的修正量。
2.1.4 统计独立性和不相关性
-
统计独立性
两个随机变量 X X X 和 Y Y Y 独立当且仅当: f X , Y ( x , y ) = f X ( x ) f Y ( y ) f_{X,Y}(x,y) = f_X(x) f_Y(y) fX,Y(x,y)=fX(x)fY(y)
或等价: F X , Y ( x , y ) = F X ( x ) F Y ( y ) F_{X,Y}(x,y) = F_X(x) F_Y(y) FX,Y(x,y)=FX(x)FY(y)
-
不相关性
两个随机变量 X X X 和 Y Y Y 不相关当且仅当(用协方差表示,协方差为0): Cov ( X , Y ) = E [ ( X − μ X ) ( Y − μ Y ) ] = 0 \text{Cov}(X,Y) = \mathbb{E}[(X - \mu_X)(Y - \mu_Y)] = 0 Cov(X,Y)=E[(X−μX)(Y−μY)]=0
或等价,用期望表示: E [ X Y ] = E [ X ] E [ Y ] \mathbb{E}[XY] = \mathbb{E}[X]\mathbb{E}[Y] E[XY]=E[X]E[Y]
关系:独立 ⇒ 不相关,但反之不一定成立
。(对于高斯概率密度函数而言,不相关意味着独立)
-
协方差和相关系数
Cov ( X , Y ) = E [ X Y ] − E [ X ] E [ Y ] \text{Cov}(X,Y) = \mathbb{E}[XY] - \mathbb{E}[X]\mathbb{E}[Y] Cov(X,Y)=E[XY]−E[X]E[Y]
ρ X , Y = Cov ( X , Y ) σ X σ Y , − 1 ≤ ρ X , Y ≤ 1 \rho_{X,Y} = \frac{\text{Cov}(X,Y)}{\sigma_X \sigma_Y}, \quad -1 \leq \rho_{X,Y} \leq 1 ρX,Y=σXσYCov(X,Y),−1≤ρX,Y≤1
2.1.5 归一化积(Normalized Product)
两个概率密度函数的归一化积常用于贝叶斯融合:
p ( x ) = p 1 ( x ) p 2 ( x ) ∫ p 1 ( x ) p 2 ( x ) d x p(x) = \frac{p_1(x) p_2(x)}{\int p_1(x) p_2(x) \, dx} p(x)=∫p1(x)p2(x)dxp1(x)p2(x)
对于高斯分布的特殊情况,两个高斯分布的归一化积仍是高斯分布。
2.1.6 香农信息和互信息
。。。 TODO