【机器人学中的状态估计】第2章 概率论基础

【机器人学中的状态估计】2.1概率密度函数

  • [2.1.1 概率基本定义](#2.1.1 概率基本定义)
    • [2.1.1 概率密度函数 (Probability Density Function, PDF)](#2.1.1 概率密度函数 (Probability Density Function, PDF))
    • [2.1.2 联合概率密度 (Joint Probability Density)](#2.1.2 联合概率密度 (Joint Probability Density))
    • [2.1.3 边缘概率密度 (Marginal Probability Density)](#2.1.3 边缘概率密度 (Marginal Probability Density))
    • [2.1.4 条件概率密度 (Conditional Probability Density)](#2.1.4 条件概率密度 (Conditional Probability Density))
    • [2.1.5 全概率公式 (Law of Total Probability)](#2.1.5 全概率公式 (Law of Total Probability))
    • [2.1.6 贝叶斯公式 (Bayes' Theorem)](#2.1.6 贝叶斯公式 (Bayes' Theorem))
  • [2.1.2 矩(Moments)](#2.1.2 矩(Moments))
  • [2.1.3 样本均值和样本方差](#2.1.3 样本均值和样本方差)
  • [2.1.4 统计独立性和不相关性](#2.1.4 统计独立性和不相关性)
  • [2.1.5 归一化积(Normalized Product)](#2.1.5 归一化积(Normalized Product))
  • [2.1.6 香农信息和互信息](#2.1.6 香农信息和互信息)

2.1.1 概率基本定义

2.1.1 概率密度函数 (Probability Density Function, PDF)

对于连续随机变量 X X X,其概率密度函数 f X ( x ) f_X(x) fX(x) 满足:

  • 非负性: f X ( x ) ≥ 0 , ∀ x f_X(x) \geq 0 \quad , \forall x fX(x)≥0,∀x
  • 归一性: ∫ − ∞ ∞ f X ( x )   d x = 1 \int_{-\infty}^{\infty} f_X(x) \, dx = 1 ∫−∞∞fX(x)dx=1
  • 概率计算: P ( a ≤ X ≤ b ) = ∫ a b f X ( x )   d x P(a \leq X \leq b) = \int_a^b f_X(x) \, dx P(a≤X≤b)=∫abfX(x)dx

正态分布示例
f X ( x ) = 1 2 π σ 2 exp ⁡ ( − ( x − μ ) 2 2 σ 2 ) f_X(x) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right) fX(x)=2πσ2 1exp(−2σ2(x−μ)2)

2.1.2 联合概率密度 (Joint Probability Density)

对于两个连续随机变量 X X X 和 Y Y Y,联合概率密度 f X , Y ( x , y ) f_{X,Y}(x,y) fX,Y(x,y) 满足:

  • 非负性: f X , Y ( x , y ) ≥ 0 , ∀ x , y f_{X,Y}(x,y) \geq 0 \quad , \forall x,y fX,Y(x,y)≥0,∀x,y
  • 归一性: ∫ − ∞ ∞ ∫ − ∞ ∞ f X , Y ( x , y )   d x   d y = 1 \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} f_{X,Y}(x,y) \, dx \, dy = 1 ∫−∞∞∫−∞∞fX,Y(x,y)dxdy=1
  • 概率计算: P ( ( X , Y ) ∈ D ) = ∬ D f X , Y ( x , y )   d x   d y P((X,Y) \in D) = \iint_D f_{X,Y}(x,y) \, dx \, dy P((X,Y)∈D)=∬DfX,Y(x,y)dxdy

2.1.3 边缘概率密度 (Marginal Probability Density)

从联合分布得到单个变量的分布(对另一个变量积分即可,这个过程称为边缘化,marginalization):

  • f X ( x ) = ∫ − ∞ ∞ f X , Y ( x , y )   d y f_X(x) = \int_{-\infty}^{\infty} f_{X,Y}(x,y) \, dy fX(x)=∫−∞∞fX,Y(x,y)dy
  • f Y ( y ) = ∫ − ∞ ∞ f X , Y ( x , y )   d x f_Y(y) = \int_{-\infty}^{\infty} f_{X,Y}(x,y) \, dx fY(y)=∫−∞∞fX,Y(x,y)dx

【统计至简】边缘概率密度函数理解与计算

2.1.4 条件概率密度 (Conditional Probability Density)

定义:

给定 Y = y Y=y Y=y 时 X X X 的条件概率密度:

f X ∣ Y ( x ∣ y ) = f X , Y ( x , y ) f Y ( y ) , f Y ( y ) > 0 f_{X|Y}(x|y) = \frac{f_{X,Y}(x,y)}{f_Y(y)}, \quad f_Y(y) > 0 fX∣Y(x∣y)=fY(y)fX,Y(x,y),fY(y)>0

∫ − ∞ ∞ f X ∣ Y ( x ∣ y )   d x = 1 \int_{-\infty}^{\infty} f_{X|Y}(x|y) \, dx = 1 ∫−∞∞fX∣Y(x∣y)dx=1

性质:

  • 非负性: f X ∣ Y ( x ∣ y ) ≥ 0 f_{X|Y}(x|y) \geq 0 fX∣Y(x∣y)≥0
  • 归一性: ∫ − ∞ ∞ f X ∣ Y ( x ∣ y ) d x = 1 \int_{-\infty}^{\infty} f_{X|Y}(x|y) dx = 1 ∫−∞∞fX∣Y(x∣y)dx=1

2.1.5 全概率公式 (Law of Total Probability)

  • 连续形式
    f X ( x ) = ∫ − ∞ ∞ f X ∣ Y ( x ∣ y ) f Y ( y )   d y f_X(x) = \int_{-\infty}^{\infty} f_{X|Y}(x|y) f_Y(y) \, dy fX(x)=∫−∞∞fX∣Y(x∣y)fY(y)dy

  • 离散形式
    P ( A ) = ∑ i P ( A ∣ B i ) P ( B i ) P(A) = \sum_i P(A|B_i) P(B_i) P(A)=∑iP(A∣Bi)P(Bi)

2.1.6 贝叶斯公式 (Bayes' Theorem)

  • 基本形式: P ( x ∣ y ) = P ( y ∣ x ) P ( x ) P ( y ) P(x|y) = \frac{P(y|x) P(x)}{P(y)} P(x∣y)=P(y)P(y∣x)P(x)

x x x:可以表示状态
y y y:可以表示为观测数据
P ( y ∣ x ) P(y|x) P(y∣x): 传感器模型
P ( x ∣ y ) P(x|y) P(x∣y): 状态估计

  • 连续随机变量形式: f X ∣ Y ( x ∣ y ) = f Y ∣ X ( y ∣ x ) f X ( x ) f Y ( y ) = f Y ∣ X ( y ∣ x ) f X ( x ) ∫ − ∞ ∞ f Y ∣ X ( y ∣ x ′ ) f X ( x ′ )   d x ′ f_{X|Y}(x|y) = \frac{f_{Y|X}(y|x) f_X(x)}{f_Y(y)} = \frac{f_{Y|X}(y|x) f_X(x)}{\int_{-\infty}^{\infty} f_{Y|X}(y|x') f_X(x') \, dx'} fX∣Y(x∣y)=fY(y)fY∣X(y∣x)fX(x)=∫−∞∞fY∣X(y∣x′)fX(x′)dx′fY∣X(y∣x)fX(x)

  • 参数形式: p ( θ ∣ X ) = p ( X ∣ θ ) p ( θ ) p ( X ) p(\theta|X) = \frac{p(X|\theta) p(\theta)}{p(X)} p(θ∣X)=p(X)p(X∣θ)p(θ)

其中:

  • θ \theta θ:模型参数
  • X X X:观测数据
  • p ( θ ∣ X ) p(\theta|X) p(θ∣X)是后验分布
  • p ( X ∣ θ ) p(X|\theta) p(X∣θ)是似然函数
  • p ( θ ) p(\theta) p(θ)是先验分布
  • p ( X ) p(X) p(X)是证据

核心框架

  • 后验 ∝ 似然 × 先验 \text{后验} \propto \text{似然}\times\text{先验} 后验∝似然×先验

  • p ( θ ∣ X ) ∝ p ( X ∣ θ ) p ( θ ) p(\theta|X) \propto p(X|\theta) p(\theta) p(θ∣X)∝p(X∣θ)p(θ)

  • p ( θ ∣ X ) = p ( X ∣ θ ) p ( θ ) ∫ p ( X ∣ θ ) p ( θ )   d θ p(\theta|X) = \frac{p(X|\theta) p(\theta)}{\int p(X|\theta) p(\theta) \, d\theta} p(θ∣X)=∫p(X∣θ)p(θ)dθp(X∣θ)p(θ)

各分量

  • 后验分布: p ( θ ∣ X ) \text{后验分布: } p(\theta|X) 后验分布: p(θ∣X)
  • 似然函数: p ( X ∣ θ ) \text{似然函数: } p(X|\theta) 似然函数: p(X∣θ)
  • 先验分布: p ( θ ) \text{先验分布: } p(\theta) 先验分布: p(θ)
  • 证据: p ( X ) = ∫ p ( X ∣ θ ) p ( θ )   d θ \text{证据: } p(X) = \int p(X|\theta) p(\theta) \, d\theta 证据: p(X)=∫p(X∣θ)p(θ)dθ

2.1.2 矩(Moments)

一阶矩(均值)

随机变量 X X X 的一阶矩是期望值,表示分布的中心位置:
μ = E [ X ] = ∫ − ∞ ∞ x f X ( x )   d x \mu = \mathbb{E}[X] = \int_{-\infty}^{\infty} x f_X(x) \, dx μ=E[X]=∫−∞∞xfX(x)dx
μ = E [ X ] = ∑ i x i p X ( x i ) \mu = \mathbb{E}[X] = \sum_{i} x_i p_X(x_i) μ=E[X]=∑ixipX(xi)

二阶矩(方差)

σ 2 = E [ ( X − μ ) 2 ] = ∫ − ∞ ∞ ( x − μ ) 2 f X ( x )   d x \sigma^2 = \mathbb{E}[(X - \mu)^2] = \int_{-\infty}^{\infty} (x - \mu)^2 f_X(x) \, dx σ2=E[(X−μ)2]=∫−∞∞(x−μ)2fX(x)dx
σ 2 = E [ X 2 ] − ( E [ X ] ) 2 \sigma^2 = \mathbb{E}[X^2] - (\mathbb{E}[X])^2 σ2=E[X2]−(E[X])2

2.1.3 样本均值和样本方差

给定样本 x 1 , x 2 , ... , x n x_1, x_2, \ldots, x_n x1,x2,...,xn:
x ˉ = 1 n ∑ i = 1 n x i \bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_i xˉ=n1∑i=1nxi

无偏样本方差:
s 2 = 1 n − 1 ∑ i = 1 n ( x i − x ˉ ) 2 s^2 = \frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2 s2=n−11∑i=1n(xi−xˉ)2

有偏样本方差
s n 2 = 1 n ∑ i = 1 n ( x i − x ˉ ) 2 s_n^2 = \frac{1}{n} \sum_{i=1}^{n} (x_i - \bar{x})^2 sn2=n1∑i=1n(xi−xˉ)2

无偏样本方差归一化参数分母是 n − 1 n-1 n−1而不是因为 n n n,这称为贝塞尔修正。样本方差使用了 n n n个测量值样本均值的差值,样本均值本身就是通过这 n n n个测量值得到的,他们之间存在一个轻微的相关性,于是就出现了这样的一个轻微的修正量。

2.1.4 统计独立性和不相关性

  • 统计独立性

    两个随机变量 X X X 和 Y Y Y 独立当且仅当: f X , Y ( x , y ) = f X ( x ) f Y ( y ) f_{X,Y}(x,y) = f_X(x) f_Y(y) fX,Y(x,y)=fX(x)fY(y)

    或等价: F X , Y ( x , y ) = F X ( x ) F Y ( y ) F_{X,Y}(x,y) = F_X(x) F_Y(y) FX,Y(x,y)=FX(x)FY(y)

  • 不相关性

    两个随机变量 X X X 和 Y Y Y 不相关当且仅当(用协方差表示,协方差为0): Cov ( X , Y ) = E [ ( X − μ X ) ( Y − μ Y ) ] = 0 \text{Cov}(X,Y) = \mathbb{E}[(X - \mu_X)(Y - \mu_Y)] = 0 Cov(X,Y)=E[(X−μX)(Y−μY)]=0

    或等价,用期望表示: E [ X Y ] = E [ X ] E [ Y ] \mathbb{E}[XY] = \mathbb{E}[X]\mathbb{E}[Y] E[XY]=E[X]E[Y]
    关系:独立 ⇒ 不相关,但反之不一定成立

    (对于高斯概率密度函数而言,不相关意味着独立)

  • 协方差和相关系数
    Cov ( X , Y ) = E [ X Y ] − E [ X ] E [ Y ] \text{Cov}(X,Y) = \mathbb{E}[XY] - \mathbb{E}[X]\mathbb{E}[Y] Cov(X,Y)=E[XY]−E[X]E[Y]
    ρ X , Y = Cov ( X , Y ) σ X σ Y , − 1 ≤ ρ X , Y ≤ 1 \rho_{X,Y} = \frac{\text{Cov}(X,Y)}{\sigma_X \sigma_Y}, \quad -1 \leq \rho_{X,Y} \leq 1 ρX,Y=σXσYCov(X,Y),−1≤ρX,Y≤1

2.1.5 归一化积(Normalized Product)

两个概率密度函数的归一化积常用于贝叶斯融合:
p ( x ) = p 1 ( x ) p 2 ( x ) ∫ p 1 ( x ) p 2 ( x )   d x p(x) = \frac{p_1(x) p_2(x)}{\int p_1(x) p_2(x) \, dx} p(x)=∫p1(x)p2(x)dxp1(x)p2(x)

对于高斯分布的特殊情况,两个高斯分布的归一化积仍是高斯分布。

2.1.6 香农信息和互信息

。。。 TODO