高斯密度下的判别函数
高斯分布
- 在给定均值和方差的所有分布中,正态分布的熵最大
- 根据Central Limit Theorem(中心极限定理),大量独立随机变量之和趋近正态分布
- 实际环境中,很多类别的特征分布趋近正态分布
多元正态分布: x = [ x 1 , x 2 , ... , x d ] T ∈ R d , μ = [ μ 1 , μ 2 , ... , μ d ] T ∈ R d \mathbf{x} = [x_1, x_2, \ldots, x_d]^T \in \mathbb{R}^d,\ \boldsymbol{\mu} = [\mu_1, \mu_2, \ldots, \mu_d]^T \in \mathbb{R}^d x=[x1,x2,...,xd]T∈Rd, μ=[μ1,μ2,...,μd]T∈Rd
Σ ∈ R d × d \boldsymbol{\Sigma} \in \mathbb{R}^{d\times d} Σ∈Rd×d:
σ i j 2 = E { ( x i − μ i ) ( x j − μ j ) } = ∫ − ∞ + ∞ ∫ − ∞ + ∞ ( x i − μ i ) ( x j − μ j ) p ( x i , x j ) d x i d x j \sigma_{ij}^2 = E\{(x_{i} - \mu_{i})(x_{j} - \mu_{j})\} = \int_{-\infty}^{+\infty} \int_{-\infty}^{+\infty} (x_{i} - \mu_{i})(x_{j} - \mu_{j}) p(x_{i}, x_{j}) dx_{i} dx_{j} σij2=E{(xi−μi)(xj−μj)}=∫−∞+∞∫−∞+∞(xi−μi)(xj−μj)p(xi,xj)dxidxj边际分布密度函数:
p ( x i ) = ∫ − ∞ + ∞ ⋯ ∫ − ∞ + ∞ p ( x ) d x 1 d x 2 ⋯ d x i − 1 d x i + 1 ⋯ d x d p(x_i) = \int_{-\infty}^{+\infty} \cdots \int_{-\infty}^{+\infty} p(\mathbf{x}) dx_1 dx_2 \cdots dx_{i - 1} dx_{i + 1} \cdots dx_d p(xi)=∫−∞+∞⋯∫−∞+∞p(x)dx1dx2⋯dxi−1dxi+1⋯dxd
单变量正态分布 | 多元正态分布 | |
---|---|---|
x ∼ N ( μ , σ 2 ) x \sim N(\mu, \sigma^2) x∼N(μ,σ2) | x ∼ N p ( μ , Σ ) \mathbf{x} \sim N_p(\boldsymbol{\mu}, \boldsymbol{\Sigma}) x∼Np(μ,Σ) | |
密度函数 | $p(x) = \frac{1}{\sqrt{2\pi}\sigma} \exp \left( - \frac{1}{2} \left( \frac{x - \mu}{\sigma} \right)^2 \right) $ | $p(\mathbf{x}) = \frac{1}{(2\pi)^{d/2} |\boldsymbol{\Sigma} |
均值 | $\mu = E{x} = \int_{-\infty}^{+\infty} x p(x) d\mathbf{x} $ | μ i = E { x i } = ∫ − ∞ + ∞ ⋯ ∫ − ∞ + ∞ x i p ( x ) d x 1 d x 2 ⋯ d x d μ = E { x } ∈ R d \mu_i = E\{x_i\} = \int_{-\infty}^{+\infty} \cdots \int_{-\infty}^{+\infty} x_i p(\mathbf{x}) d\mathbf{x}_1 d\mathbf{x}_2 \cdots d\mathbf{x}_d\\\boldsymbol{\mu} = E\{\mathbf{x}\} \in \mathbb{R}^d μi=E{xi}=∫−∞+∞⋯∫−∞+∞xip(x)dx1dx2⋯dxdμ=E{x}∈Rd |
方差 | $\sigma^2 = \int_{-\infty}^{+\infty} (x - \mu)^2 p(x) d\mathbf{x} $ | Σ = E { ( x − μ ) ( x − μ ) T } = [ σ 11 2 σ 12 2 ⋯ σ 1 d 2 σ 12 2 σ 22 2 ⋯ σ 2 d 2 ⋮ ⋮ ⋱ ⋮ σ 1 d 2 σ 2 d 2 ⋯ σ d d 2 ] \boldsymbol{\Sigma} = E\{(\mathbf{x} - \boldsymbol{\mu})(\mathbf{x} - \boldsymbol{\mu})^T\} = \begin{bmatrix} \sigma_{11}^2 & \sigma_{12}^2 & \cdots & \sigma_{1d}^2 \\ \sigma_{12}^2 & \sigma_{22}^2 & \cdots & \sigma_{2d}^2 \\ \vdots & \vdots & \ddots & \vdots \\ \sigma_{1d}^2 & \sigma_{2d}^2 & \cdots & \sigma_{dd}^2 \end{bmatrix} Σ=E{(x−μ)(x−μ)T}= σ112σ122⋮σ1d2σ122σ222⋮σ2d2⋯⋯⋱⋯σ1d2σ2d2⋮σdd2 |
性质 | $p(x) \geq 0,-\infty < x < +\infty,\\int_{-\infty}^{+\infty} p(x) d\mathbf{x} = 1 $ | p ( x i ) = ∫ − ∞ + ∞ ⋯ ∫ − ∞ + ∞ p ( x ) d x 1 d x 2 ⋯ d x i − 1 d x i + 1 ⋯ d x d p(x_i) = \int_{-\infty}^{+\infty} \cdots \int_{-\infty}^{+\infty} p(\mathbf{x}) d\mathbf{x}1 d\mathbf{x}2 \cdots d\mathbf{x}{i - 1} d\mathbf{x}{i + 1} \cdots d\mathbf{x}_d p(xi)=∫−∞+∞⋯∫−∞+∞p(x)dx1dx2⋯dxi−1dxi+1⋯dxd |
等密度轨迹
等密度轨迹为一超椭球面。从多元正态分布函数可以看出,当其指数项等于常数时,密度 p ( x ) p(\mathbf{x}) p(x)的值不变,因此等函数点即为使如下方程为常数的点,即: $(\mathbf{x} - \boldsymbol{\mu})^T \boldsymbol{\Sigma}^{-1} (\mathbf{x} - \boldsymbol{\mu}) = const. $
Mahalanobis距离(马氏距离): r 2 = ( x − μ ) T Σ − 1 ( x − μ ) r^2=(\mathbf{x}-\mathbf{\mu})^T\Sigma^{-1}(\mathbf{x}-\mathbf{\mu}) r2=(x−μ)TΣ−1(x−μ)
性质
-
不相关性=独立性
-
边缘分布与条件分布均为正态分布
-
多元正态随机变量的线性变换(非奇异)仍为多元正态分布的随机变量
-
线性组合的正态性:若 x \mathbf{x} x为多元正态随机变量,则线性组合 y = a T x \mathbf{y} = \mathbf{a}^T \mathbf{x} y=aTx是一个一维正态随机变量。
-
对多元正态分布的协方差矩阵 Σ \Sigma Σ可以进行正交分解。
- Σ = U Λ U T \Sigma=U\Lambda U^T Σ=UΛUT
U U U是 Λ \Lambda Λ对应特征值的特征向量构成的矩阵,属于 R ( Σ ) R(\Sigma) R(Σ)值域空间。
- Σ = U Λ U T \Sigma=U\Lambda U^T Σ=UΛUT
-
线性变换 y = A T x , y ∼ N ( A T μ , A T Σ A ) y=A^T\mathbf{x},\ y\sim N(A^T\mu,A^T\Sigma A) y=ATx, y∼N(ATμ,ATΣA)
C o v ( A X ) = A C o v ( X ) A T 令 A w = U Λ − 1 / 2 , C o v ( A T X ) = Λ − 1 / 2 U Σ U Λ − 1 / 2 = Λ − 1 / 2 Λ Λ − 1 / 2 = I Cov(AX)=ACov(X)A^T\\ 令A_w=U\Lambda^{-1/2},Cov(A^TX)=\Lambda^{-1/2}U\Sigma U\Lambda^{-1/2}=\Lambda^{-1/2}\Lambda\Lambda^{-1/2}=I Cov(AX)=ACov(X)AT令Aw=UΛ−1/2,Cov(ATX)=Λ−1/2UΣUΛ−1/2=Λ−1/2ΛΛ−1/2=I白化变换:对 Σ \Sigma Σ进行归一化变成 I I I.
最小错误率贝叶斯决策
对于 c c c类问题,假定各类条件概率密度函数为多元正态分布:
p ( x ∣ ω i ) ∼ N ( μ i , Σ i ) , i = 1 , 2 , ... , c p(\mathbf{x}|\omega_i) \sim N(\boldsymbol{\mu}_i, \boldsymbol{\Sigma}_i), \quad i = 1,2,\ldots,c p(x∣ωi)∼N(μi,Σi),i=1,2,...,c
判别函数(Quadratic discrimin function (QDF)):$(i = 1,2,\ldots,c) $
g i ( x ) = ln ( p ( x ∣ ω i ) ) + ln ( P ( ω i ) ) = − 1 2 ( x − μ i ) T Σ i − 1 ( x − μ i ) − d 2 ln ( 2 π ) − 1 2 ln ( ∣ Σ i ∣ ) + ln ( P ( ω i ) ) \begin{align}g_i(\mathbf{x})&=\ln(p(\mathbf{x}|\omega_i))+\ln(P(\omega_i))\\ &=-\frac{1}{2}(\mathbf{x}-\boldsymbol{\mu}_i)^T\boldsymbol{\Sigma}_i^{-1}(\mathbf{x}-\boldsymbol{\mu}_i)-\frac{d}{2}\ln(2\pi)-\frac{1}{2}\ln(|\boldsymbol{\Sigma}_i|)+\ln(P(\omega_i)) \end{align} gi(x)=ln(p(x∣ωi))+ln(P(ωi))=−21(x−μi)TΣi−1(x−μi)−2dln(2π)−21ln(∣Σi∣)+ln(P(ωi))
决策面方程 :
g i ( x ) = g j ( x ) − 1 2 ( ( x − μ i ) T Σ i − 1 ( x − μ i ) − ( x − μ j ) T Σ j − 1 ( x − μ j ) ) − 1 2 ln ( ∣ Σ i ∣ ∣ Σ j ∣ ) + ln ( P ( ω i ) P ( ω j ) ) = 0 g_i(\mathbf{x})=g_j(\mathbf{x})\\ -\frac{1}{2}\left((\mathbf{x}-\boldsymbol{\mu}_i)^T\boldsymbol{\Sigma}_i^{-1}(\mathbf{x}-\boldsymbol{\mu}_i)-(\mathbf{x}-\boldsymbol{\mu}_j)^T\boldsymbol{\Sigma}_j^{-1}(\mathbf{x}-\boldsymbol{\mu}_j)\right)-\frac{1}{2}\ln\left(\frac{|\boldsymbol{\Sigma}_i|}{|\boldsymbol{\Sigma}_j|}\right)+\ln\left(\frac{P(\omega_i)}{P(\omega_j)}\right)=0 gi(x)=gj(x)−21((x−μi)TΣi−1(x−μi)−(x−μj)TΣj−1(x−μj))−21ln(∣Σj∣∣Σi∣)+ln(P(ωj)P(ωi))=0
第一种情形: Σ i = σ 2 I , i = 1 , 2 , ... , c \boldsymbol{\Sigma}_i=\sigma^2\mathbf{I}, \quad i = 1,2,\ldots,c Σi=σ2I,i=1,2,...,c
这表明每个特征向量对应的方差都是独立同分布。
协方差矩阵:
Σ i = [ σ 2 0 ⋯ 0 0 σ 2 ⋯ 0 ⋮ ⋮ ⋱ ⋮ 0 0 ⋯ σ 2 ] , ∣ Σ i ∣ = σ 2 d , Σ i − 1 = 1 σ 2 I \boldsymbol{\Sigma}_i=\begin{bmatrix} \sigma^2 & 0 & \cdots & 0 \\ 0 & \sigma^2 & \cdots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots & \sigma^2 \end{bmatrix}, \quad |\boldsymbol{\Sigma}_i|=\sigma^{2d}, \quad \boldsymbol{\Sigma}_i^{-1}=\frac{1}{\sigma^2}\mathbf{I} Σi= σ20⋮00σ2⋮0⋯⋯⋱⋯00⋮σ2 ,∣Σi∣=σ2d,Σi−1=σ21I
判别函数(Quadratic discrimin function (QDF)):
g i ( x ) = − 1 2 σ 2 ( x − μ i ) T ( x − μ i ) − d 2 ln ( 2 π ) − 1 2 ln ( σ 2 d ) + ln ( P ( w i ) ) = − 1 2 σ 2 ( x − μ i ) T ( x − μ i ) + ln ( P ( w i ) ) = − 1 2 σ 2 ∥ x − μ i ∥ 2 2 + ln ( P ( w i ) ) \begin{align}g_i(\mathbf{x})&=-\frac{1}{2\sigma^2}(\mathbf{x}-\boldsymbol{\mu}_i)^T(\mathbf{x}-\boldsymbol{\mu}_i)-\frac{d}{2}\ln(2\pi)-\frac{1}{2}\ln(\sigma^{2d})+\ln(P(w_i))\\ &=-\frac{1}{2\sigma^2}(\mathbf{x}-\boldsymbol{\mu}_i)^T(\mathbf{x}-\boldsymbol{\mu}_i)+\ln(P(w_i))\\ &=-\frac{1}{2\sigma^2}\|\mathbf{x}-\boldsymbol{\mu}_i\|^2_2+\ln(P(w_i)) \end{align} gi(x)=−2σ21(x−μi)T(x−μi)−2dln(2π)−21ln(σ2d)+ln(P(wi))=−2σ21(x−μi)T(x−μi)+ln(P(wi))=−2σ21∥x−μi∥22+ln(P(wi))
先验概率相等: P ( w i ) = P ( w j ) P(w_i)=P(w_j) P(wi)=P(wj)
此时,判别函数可进一步简化为:
g i ( x ) = − 1 2 σ 2 ∥ x − μ i ∥ 2 2 g_i(\mathbf{x})=-\frac{1}{2\sigma^2}\|\mathbf{x}-\boldsymbol{\mu}_i\|^2_2 gi(x)=−2σ21∥x−μi∥22
因此,最小错误率贝叶斯规则相当简单:
若要对样本 x \mathbf{x} x进行分类,只需要计算 x \mathbf{x} x到各类均值向量的欧氏距离平方,然后将归于距离最短的一类:
arg min i = 1 , 2 , ... , c ∥ x − μ i ∥ 2 \arg\min_{i = 1,2,\ldots,c}\|\mathbf{x}-\boldsymbol{\mu}_i\|^2 argi=1,2,...,cmin∥x−μi∥2
这种分类器称为最小距离分类器。
先验概率不相等: P ( w i ) ≠ P ( w j ) P(w_i)\neq P(w_j) P(wi)=P(wj)
判别函数:
g i ( x ) = − 1 2 σ 2 ( x − μ i ) T ( x − μ i ) + ln ( P ( w i ) ) = − 1 2 σ 2 ( x T x − 2 μ i T x + μ i T μ i ) + ln ( P ( w i ) ) = 1 σ 2 μ i T x − 1 2 σ 2 μ i T μ i + ln ( P ( w i ) ) = w i T x + w i 0 \begin{align}g_i(\mathbf{x})&=-\frac{1}{2\sigma^2}(\mathbf{x}-\boldsymbol{\mu}_i)^T(\mathbf{x}-\boldsymbol{\mu}_i)+\ln(P(w_i))\\ &=-\frac{1}{2\sigma^2}(\mathbf{x}^T\mathbf{x}-2\boldsymbol{\mu}_i^T\mathbf{x}+\boldsymbol{\mu}_i^T\boldsymbol{\mu}_i)+\ln(P(w_i))\\ &=\frac{1}{\sigma^2}\boldsymbol{\mu}_i^T\mathbf{x}-\frac{1}{2\sigma^2}\boldsymbol{\mu}_i^T\boldsymbol{\mu}_i+\ln(P(w_i))\\ &= \mathbf{w}i^T\mathbf{x}+\mathrm w{i0} \end{align} gi(x)=−2σ21(x−μi)T(x−μi)+ln(P(wi))=−2σ21(xTx−2μiTx+μiTμi)+ln(P(wi))=σ21μiTx−2σ21μiTμi+ln(P(wi))=wiTx+wi0
由于每一类的判别函数均包含 x T x \mathbf{x}^T\mathbf{x} xTx,与下标 i i i无关,因此可以进一步简化为线性判别函数,得到判别函数 g i ( x ) g_i(\mathbf{x}) gi(x)是 x \mathbf{x} x的线性函数。
g i ( x ) = w i T x + w i 0 { w i = 1 σ 2 μ i w i 0 = ln ( P ( w i ) ) − 1 2 σ 2 μ i T μ i g_i(x)=\mathbf{w}i^T\mathbf{x}+\mathrm w{i0}\\ \begin{cases}\mathbf{w}_i&=\frac{1}{\sigma^2}\boldsymbol{\mu}i\\ \mathrm w{i0}&=\ln(P(w_i))-\frac{1}{2\sigma^2}\boldsymbol{\mu}_i^T\boldsymbol{\mu}_i\end{cases} gi(x)=wiTx+wi0{wiwi0=σ21μi=ln(P(wi))−2σ21μiTμi
决策规则: 若 g k ( x ) = max i g i ( x ) g_k(\mathbf{x})=\max_{i}g_i(\mathbf{x}) gk(x)=maxigi(x),则 x ∈ w k \mathbf{x}\in w_k x∈wk
-
判别函数为线性函数的分类器称为线性分类器。
-
线性分类器的决策面方程为: g i ( x ) − g j ( x ) = 0 g_i(\mathbf{x}) - g_j(\mathbf{x})=0 gi(x)−gj(x)=0所确定的一个超平面。
g i ( x ) − g j ( x ) = 0 ⇒ w T ( x − x 0 ) = 0 g_i(\mathbf{x})-g_j(\mathbf{x})=0 \Rightarrow \mathbf{w}^T(\mathbf{x}-\mathbf{x}_0)=0 gi(x)−gj(x)=0⇒wT(x−x0)=0先验概率相等 P ( w i ) = P ( w j ) P(w_i)=P(w_j) P(wi)=P(wj) 先验概率不等 P ( w i ) ≠ P ( w j ) P(w_i)\neq P(w_j) P(wi)=P(wj) w = μ i − μ j \mathbf{w}=\boldsymbol{\mu}_i - \boldsymbol{\mu}_j w=μi−μj w = μ i − μ j \mathbf{w}=\boldsymbol{\mu}_i - \boldsymbol{\mu}_j w=μi−μj x 0 = 1 2 ( μ i + μ j ) \mathbf{x}_0=\frac{1}{2}(\boldsymbol{\mu}_i+\boldsymbol{\mu}_j) x0=21(μi+μj) KaTeX parse error: {align} can be used only in display mode.
先验概率相等:取欧式距离的中点划分。
先验概率不等:根据 s i j s_{ij} sij的大小会偏斜 先验概率较小的一边。
- P ( w i ) > P ( w j ) , s i j > 0 P(w_i)> P(w_j),s_{ij}>0 P(wi)>P(wj),sij>0: 会向 R j R_j Rj偏.
- P ( w i ) < P ( w j ) , s i j > 0 P(w_i)< P(w_j),s_{ij}>0 P(wi)<P(wj),sij>0: 会向 R i R_i Ri偏.
第二种情形: Σ i = Σ , i = 1 , 2 , ... , c \boldsymbol{\Sigma}_i=\boldsymbol{\Sigma}, \quad i = 1,2,\ldots,c Σi=Σ,i=1,2,...,c
各类的协方差矩阵均相等。从几何上看,相当于各类样本集中于以该类均值 μ i \boldsymbol{\mu}_i μi为中心但大小和形状相同的椭球内。
判别函数(Quadratic discriminant function (QDF)):
g i ( x ) = ln ( p ( x ∣ ω i ) ) + ln ( P ( ω i ) ) = − 1 2 ( x − μ i ) T Σ − 1 ( x − μ i ) − d 2 ln ( 2 π ) − 1 2 ln ( ∣ Σ ∣ ) + ln ( P ( ω i ) ) = − 1 2 ( x − μ i ) T Σ − 1 ( x − μ i ) + ln ( P ( ω i ) ) \begin{align}g_i(\mathbf{x})&=\ln(p(\mathbf{x}|\omega_i))+\ln(P(\omega_i))\\ &=-\frac{1}{2}(\mathbf{x}-\boldsymbol{\mu}_i)^T\boldsymbol{\Sigma}^{-1}(\mathbf{x}-\boldsymbol{\mu}_i)-\frac{d}{2}\ln(2\pi)-\frac{1}{2}\ln(|\boldsymbol{\Sigma}|)+\ln(P(\omega_i))\\ &=-\frac{1}{2}(\mathbf{x}-\boldsymbol{\mu}_i)^T\boldsymbol{\Sigma}^{-1}(\mathbf{x}-\boldsymbol{\mu}_i)+\ln(P(\omega_i)) \end{align} gi(x)=ln(p(x∣ωi))+ln(P(ωi))=−21(x−μi)TΣ−1(x−μi)−2dln(2π)−21ln(∣Σ∣)+ln(P(ωi))=−21(x−μi)TΣ−1(x−μi)+ln(P(ωi))
先验概率相等: P ( w i ) = P ( w j ) P(w_i)=P(w_j) P(wi)=P(wj)
判别函数:
g i ( x ) = r 2 = ( x − μ i ) T Σ − 1 ( x − μ i ) g_i(\mathbf{x})=r^2 = (\mathbf{x}-\boldsymbol{\mu}_i)^T\boldsymbol{\Sigma}^{-1}(\mathbf{x}-\boldsymbol{\mu}_i) gi(x)=r2=(x−μi)TΣ−1(x−μi)
决策规则: 若要对样本 x \mathbf{x} x进行分类,只需要计算 x \mathbf{x} x到各类均值向量的马氏距离平方,然后将归于距离最短的一类:
arg min i = 1 , 2 , ... , c ( x − μ i ) T Σ − 1 ( x − μ i ) \arg\min_{i = 1,2,\ldots,c}(\mathbf{x}-\boldsymbol{\mu}_i)^T\boldsymbol{\Sigma}^{-1}(\mathbf{x}-\boldsymbol{\mu}_i) argi=1,2,...,cmin(x−μi)TΣ−1(x−μi)
先验概率不相等: P ( w i ) ≠ P ( w j ) P(w_i)\neq P(w_j) P(wi)=P(wj)
判别函数:
g i ( x ) = − 1 2 ( x − μ i ) T Σ − 1 ( x − μ i ) + ln ( P ( ω i ) ) = − 1 2 ( x T Σ − 1 x − 2 μ i T Σ − 1 x + μ i T Σ − 1 μ i ) + ln ( P ( ω i ) ) = μ i Σ − 1 x − 1 2 μ i T Σ − 1 μ i + ln ( P ( ω i ) ) = w i T x + w i 0 { w i = Σ − 1 μ i w i 0 = ln ( P ( ω i ) ) − 1 2 μ i T Σ − 1 μ i \ \begin{align} g_i(\mathbf{x})&=-\frac{1}{2}(\mathbf{x}-\boldsymbol{\mu}_i)^T\boldsymbol{\Sigma}^{-1}(\mathbf{x}-\boldsymbol{\mu}_i)+\ln(P(\omega_i)) \\ &=-\frac{1}{2}(\mathbf{x}^T\boldsymbol{\Sigma}^{-1}\mathbf{x}-2\boldsymbol{\mu}_i^T\boldsymbol{\Sigma}^{-1}\mathbf{x}+\boldsymbol{\mu}_i^T\boldsymbol{\Sigma}^{-1}\boldsymbol{\mu}_i)+\ln(P(\omega_i)) \\ &=\boldsymbol\mu_i\boldsymbol\Sigma^{-1}\mathbf{x}-\frac 1 2 \boldsymbol{\mu}_i^T\boldsymbol{\Sigma}^{-1}\boldsymbol{\mu}_i+\ln(P(\omega_i)) \\ &=\mathbf{w}i^T\mathbf{x}+\mathrm w{i0}\\\\ &\begin{cases} \mathbf{w}_i&=\boldsymbol{\Sigma}^{-1}\boldsymbol{\mu}i\\ \mathrm w{i0}&=\ln(P(\omega_i))-\frac{1}{2}\boldsymbol{\mu}_i^T\boldsymbol{\Sigma}^{-1}\boldsymbol{\mu}_i \end{cases} \end{align} gi(x)=−21(x−μi)TΣ−1(x−μi)+ln(P(ωi))=−21(xTΣ−1x−2μiTΣ−1x+μiTΣ−1μi)+ln(P(ωi))=μiΣ−1x−21μiTΣ−1μi+ln(P(ωi))=wiTx+wi0{wiwi0=Σ−1μi=ln(P(ωi))−21μiTΣ−1μi
决策面方程: g i ( x ) − g j ( x ) = 0 g_i(\mathbf{x})-g_j(\mathbf{x})=0 gi(x)−gj(x)=0
展开可得: w T ( x − x 0 ) = 0 \mathbf{w}^T(\mathbf{x}-\mathbf{x}_0)=0 wT(x−x0)=0 ( 这是线性判别函数 )
先验概率相等 P ( w i ) = P ( w j ) P(w_i)=P(w_j) P(wi)=P(wj) | 先验概率不相等 P ( w i ) ≠ P ( w j ) P(w_i)\neq P(w_j) P(wi)=P(wj) |
---|---|
w = Σ − 1 ( μ i − μ j ) \mathbf{w}=\boldsymbol{\Sigma}^{-1}(\boldsymbol{\mu}_i-\boldsymbol{\mu}_j) w=Σ−1(μi−μj) | w = Σ − 1 ( μ i − μ j ) \mathbf{w}=\boldsymbol{\Sigma}^{-1}(\boldsymbol{\mu}_i-\boldsymbol{\mu}_j) w=Σ−1(μi−μj) |
x 0 = 1 2 ( μ i + μ j ) \mathbf{x}_0=\frac{1}{2}(\boldsymbol{\mu}_i+\boldsymbol{\mu}_j) x0=21(μi+μj) | KaTeX parse error: {align} can be used only in display mode. |
第三种情形: Σ i ≠ Σ j , i , j = 1 , 2 , ... , c \boldsymbol{\Sigma}_i\neq\boldsymbol{\Sigma}_j, \quad i,j = 1,2,\ldots,c Σi=Σj,i,j=1,2,...,c
判别函数:
g i ( x ) = ln ( p ( x ∣ ω i ) ) + ln ( P ( ω i ) ) = − 1 2 ( x − μ i ) T Σ i − 1 ( x − μ i ) − d 2 ln ( 2 π ) − 1 2 ln ( ∣ Σ i ∣ ) + ln ( P ( ω i ) ) = − 1 2 ( x − μ i ) T Σ i − 1 ( x − μ i ) − 1 2 ln ( ∣ Σ i ∣ ) + ln ( P ( ω i ) ) = x T W i x + w i T x + w i 0 { W i = − 1 2 Σ i − 1 w i = Σ i − 1 μ i w i 0 = − 1 2 μ i T Σ i − 1 μ i − 1 2 ln ( ∣ Σ i ∣ ) + ln ( P ( ω i ) ) \begin{align}g_i(\mathbf{x})&=\ln(p(\mathbf{x}|\omega_i))+\ln(P(\omega_i))\\ &=-\frac{1}{2}(\mathbf{x}-\boldsymbol{\mu}_i)^T\boldsymbol{\Sigma}_i^{-1}(\mathbf{x}-\boldsymbol{\mu}_i)-\frac{d}{2}\ln(2\pi)-\frac{1}{2}\ln(|\boldsymbol{\Sigma}_i|)+\ln(P(\omega_i))\\ &=-\frac{1}{2}(\mathbf{x}-\boldsymbol{\mu}_i)^T\boldsymbol{\Sigma}_i^{-1}(\mathbf{x}-\boldsymbol{\mu}_i)-\frac{1}{2}\ln(|\boldsymbol{\Sigma}_i|)+\ln(P(\omega_i))\\ &=\mathbf{x}^T\mathbf{W}_i\mathbf{x}+\mathbf{w}i^T\mathbf{x}+\mathrm w{i0}\\ &\begin{cases} \mathbf{W}_i &= -\frac{1}{2}\boldsymbol{\Sigma}_i^{-1}\\ \mathbf{w}_i&=\boldsymbol{\Sigma}_i^{-1}\boldsymbol{\mu}i\\ \mathrm w{i0}&=-\frac{1}{2}\boldsymbol{\mu}_i^T\boldsymbol{\Sigma}_i^{-1}\boldsymbol{\mu}_i-\frac{1}{2}\ln(|\boldsymbol{\Sigma}_i|)+\ln(P(\omega_i)) \end{cases} \end{align} gi(x)=ln(p(x∣ωi))+ln(P(ωi))=−21(x−μi)TΣi−1(x−μi)−2dln(2π)−21ln(∣Σi∣)+ln(P(ωi))=−21(x−μi)TΣi−1(x−μi)−21ln(∣Σi∣)+ln(P(ωi))=xTWix+wiTx+wi0⎩ ⎨ ⎧Wiwiwi0=−21Σi−1=Σi−1μi=−21μiTΣi−1μi−21ln(∣Σi∣)+ln(P(ωi))
决策方程:
g i ( x ) − g j ( x ) = 0 x T ( W i − W j ) x + ( w i − w j ) T x + w i 0 − w j 0 = 0 g_i(\mathbf{x})-g_j(\mathbf{x})=0\\ \mathbf{x}^T(\mathbf{W}_i-\mathbf{W}_j)\mathbf{x}+(\mathbf{w}i-\mathbf{w}j)^T\mathbf{x}+w{i0}-w{j0}=0 gi(x)−gj(x)=0xT(Wi−Wj)x+(wi−wj)Tx+wi0−wj0=0
决策面为一个超二次曲面。随着 Σ i \boldsymbol{\Sigma}_i Σi、 μ i \boldsymbol{\mu}_i μi、 P ( w i ) P(w_i) P(wi)等的不同而呈现出超球面、超椭球面、超双曲面或超平面等不同的情形。
例子: c=2, 2D
P ( ω 1 ) = P ( ω 2 ) = 0.5 μ 1 = [ 3 6 ] ; Σ 1 = [ 1 / 2 0 0 2 ] ; Σ 1 − 1 = [ 2 0 0 1 / 2 ] μ 2 = [ 3 − 2 ] ; Σ 2 = [ 2 0 0 2 ] ; Σ 2 − 1 = [ 1 / 2 0 0 1 / 2 ] P(\omega_1)=P(\omega_2)=0.5\\\boldsymbol{\mu}_1 = \begin{bmatrix} 3 \\ 6 \end{bmatrix} ; \boldsymbol{\Sigma}_1 = \begin{bmatrix} 1/2 & 0 \\ 0 & 2 \end{bmatrix} ; \boldsymbol{\Sigma}_1^{-1} = \begin{bmatrix} 2 & 0 \\ 0 & 1/2 \end{bmatrix}\\ \boldsymbol{\mu}_2 = \begin{bmatrix} 3 \\ -2 \end{bmatrix} ; \boldsymbol{\Sigma}_2 = \begin{bmatrix} 2 & 0 \\ 0 & 2 \end{bmatrix} ; \boldsymbol{\Sigma}_2^{-1} = \begin{bmatrix} 1/2 & 0 \\ 0 & 1/2 \end{bmatrix} P(ω1)=P(ω2)=0.5μ1=[36];Σ1=[1/2002];Σ1−1=[2001/2]μ2=[3−2];Σ2=[2002];Σ2−1=[1/2001/2]
对于两类问题, Σ i ≠ Σ j \boldsymbol{\Sigma}_i\neq\boldsymbol{\Sigma}_j Σi=Σj,先验相等。
g i ( x ) = − 1 2 ( x − μ i ) T Σ i − 1 ( x − μ i ) − 1 2 ln ( ∣ Σ i ∣ ) + ln ( P ( ω i ) ) g_i(\mathbf{x})=-\frac{1}{2}(\mathbf{x}-\boldsymbol{\mu}_i)^T\boldsymbol{\Sigma}_i^{-1}(\mathbf{x}-\boldsymbol{\mu}_i)-\frac{1}{2}\ln(|\boldsymbol{\Sigma}_i|)+\ln(P(\omega_i)) gi(x)=−21(x−μi)TΣi−1(x−μi)−21ln(∣Σi∣)+ln(P(ωi))
决策面方程为 g 1 ( x ) − g 2 ( x ) = 0 g_1(\mathbf{x}) - g_2(\mathbf{x}) = 0 g1(x)−g2(x)=0。
( x − μ 1 ) T Σ 1 − 1 ( x − μ 1 ) + ln ( ∣ Σ 1 ∣ ) = ( x − μ 2 ) T Σ 2 − 1 ( x − μ 2 ) + ln ( ∣ Σ 2 ∣ ) ( x − μ 1 ) T Σ 1 − 1 ( x − μ 1 ) = ( x 1 − 3 , x 2 − 6 ) [ 2 0 0 1 / 2 ] [ x 1 − 3 x 2 − 6 ] ln ( ∣ Σ 1 ∣ ) = ln ( 1 ) = 0 , ln ( ∣ Σ 2 ∣ ) = ln ( 4 ) = 2 ln ( 2 ) ( x − μ 2 ) T Σ 2 − 1 ( x − μ 2 ) = ( x 1 − 3 , x 2 + 2 ) [ 1 / 2 0 0 1 / 2 ] [ x 1 − 3 x 2 + 2 ] (\mathbf{x}-\boldsymbol{\mu}_1)^T\boldsymbol{\Sigma}_1^{-1}(\mathbf{x}-\boldsymbol{\mu}_1)+\ln(|\boldsymbol{\Sigma}_1|)=(\mathbf{x}-\boldsymbol{\mu}_2)^T\boldsymbol{\Sigma}_2^{-1}(\mathbf{x}-\boldsymbol{\mu}_2)+\ln(|\boldsymbol{\Sigma}_2|)\\ (\mathbf{x}-\boldsymbol{\mu}_1)^T\boldsymbol{\Sigma}_1^{-1}(\mathbf{x}-\boldsymbol{\mu}_1)=(x_1 - 3, x_2 - 6)\left[\begin{matrix}2&0\\0&1/2\end{matrix}\right]\left[\begin{matrix}x_1 - 3\\x_2 - 6\end{matrix}\right]\\ \ln(|\boldsymbol{\Sigma}_1|)=\ln(1)=0,\ln(|\boldsymbol{\Sigma}_2|)=\ln(4)=2\ln(2)\\ (\mathbf{x}-\boldsymbol{\mu}_2)^T\boldsymbol{\Sigma}_2^{-1}(\mathbf{x}-\boldsymbol{\mu}_2)=(x_1 - 3, x_2 + 2)\left[\begin{matrix}1/2&0\\0&1/2\end{matrix}\right]\left[\begin{matrix}x_1 - 3\\ x_2 + 2\end{matrix}\right]\\ (x−μ1)TΣ1−1(x−μ1)+ln(∣Σ1∣)=(x−μ2)TΣ2−1(x−μ2)+ln(∣Σ2∣)(x−μ1)TΣ1−1(x−μ1)=(x1−3,x2−6)[2001/2][x1−3x2−6]ln(∣Σ1∣)=ln(1)=0,ln(∣Σ2∣)=ln(4)=2ln(2)(x−μ2)TΣ2−1(x−μ2)=(x1−3,x2+2)[1/2001/2][x1−3x2+2]
− ( 2 ( x 1 − 3 ) 2 + 1 2 ( x 2 − 6 ) 2 ) + ( 1 2 ( x 1 − 3 ) 2 + 1 2 ( x 2 + 2 ) 2 ) + 2 ln ( 2 ) = 0 − 2 ( x 1 − 3 ) 2 − 1 2 ( x 2 − 6 ) 2 + 1 2 ( x 1 − 3 ) 2 + 1 2 ( x 2 + 2 ) 2 + 2 ln ( 2 ) = 0 ( − 2 + 1 2 ) ( x 1 − 3 ) 2 − 1 2 ( x 2 − 6 ) 2 + 1 2 ( x 2 + 2 ) 2 + 2 ln ( 2 ) = 0 − 3 2 ( x 1 − 3 ) 2 + 8 x 2 − 16 + 2 ln 2 = 0 -(2(x_1 - 3)^2+\frac{1}{2}(x_2 - 6)^2)+(\frac{1}{2}(x_1 - 3)^2+\frac{1}{2}(x_2 + 2)^2)+2\ln(2)=0\\ -2(x_1 - 3)^2-\frac{1}{2}(x_2 - 6)^2+\frac{1}{2}(x_1 - 3)^2+\frac{1}{2}(x_2 + 2)^2+2\ln(2)=0\\ (-2 + \frac{1}{2})(x_1 - 3)^2-\frac{1}{2}(x_2 - 6)^2+\frac{1}{2}(x_2 + 2)^2+2\ln(2)=0\\ -\frac{3}{2}(x_1 - 3)^2+8x_2-16+2\ln2=0 −(2(x1−3)2+21(x2−6)2)+(21(x1−3)2+21(x2+2)2)+2ln(2)=0−2(x1−3)2−21(x2−6)2+21(x1−3)2+21(x2+2)2+2ln(2)=0(−2+21)(x1−3)2−21(x2−6)2+21(x2+2)2+2ln(2)=0−23(x1−3)2+8x2−16+2ln2=0
所以,此例子的决策面方程为 x 2 = 3.514 − 1.125 x 1 + 0.1875 x 1 2 x2=3.514-1.125x_1+0.1875x_1^2 x2=3.514−1.125x1+0.1875x12。