模式识别-Ch2-高斯下判别函数

高斯密度下的判别函数

高斯分布

  1. 在给定均值和方差的所有分布中,正态分布的熵最大
  2. 根据Central Limit Theorem(中心极限定理),大量独立随机变量之和趋近正态分布
  3. 实际环境中,很多类别的特征分布趋近正态分布

多元正态分布: x = [ x 1 , x 2 , ... , x d ] T ∈ R d , μ = [ μ 1 , μ 2 , ... , μ d ] T ∈ R d \mathbf{x} = [x_1, x_2, \ldots, x_d]^T \in \mathbb{R}^d,\ \boldsymbol{\mu} = [\mu_1, \mu_2, \ldots, \mu_d]^T \in \mathbb{R}^d x=[x1,x2,...,xd]T∈Rd, μ=[μ1,μ2,...,μd]T∈Rd

Σ ∈ R d × d \boldsymbol{\Sigma} \in \mathbb{R}^{d\times d} Σ∈Rd×d:
σ i j 2 = E { ( x i − μ i ) ( x j − μ j ) } = ∫ − ∞ + ∞ ∫ − ∞ + ∞ ( x i − μ i ) ( x j − μ j ) p ( x i , x j ) d x i d x j \sigma_{ij}^2 = E\{(x_{i} - \mu_{i})(x_{j} - \mu_{j})\} = \int_{-\infty}^{+\infty} \int_{-\infty}^{+\infty} (x_{i} - \mu_{i})(x_{j} - \mu_{j}) p(x_{i}, x_{j}) dx_{i} dx_{j} σij2=E{(xi−μi)(xj−μj)}=∫−∞+∞∫−∞+∞(xi−μi)(xj−μj)p(xi,xj)dxidxj

边际分布密度函数:
p ( x i ) = ∫ − ∞ + ∞ ⋯ ∫ − ∞ + ∞ p ( x ) d x 1 d x 2 ⋯ d x i − 1 d x i + 1 ⋯ d x d p(x_i) = \int_{-\infty}^{+\infty} \cdots \int_{-\infty}^{+\infty} p(\mathbf{x}) dx_1 dx_2 \cdots dx_{i - 1} dx_{i + 1} \cdots dx_d p(xi)=∫−∞+∞⋯∫−∞+∞p(x)dx1dx2⋯dxi−1dxi+1⋯dxd

单变量正态分布 多元正态分布
x ∼ N ( μ , σ 2 ) x \sim N(\mu, \sigma^2) x∼N(μ,σ2) x ∼ N p ( μ , Σ ) \mathbf{x} \sim N_p(\boldsymbol{\mu}, \boldsymbol{\Sigma}) x∼Np(μ,Σ)
密度函数 p(x) = \\frac{1}{\\sqrt{2\\pi}\\sigma} \\exp \\left( - \\frac{1}{2} \\left( \\frac{x - \\mu}{\\sigma} \\right)\^2 \\right) $p(\mathbf{x}) = \frac{1}{(2\pi)^{d/2} |\boldsymbol{\Sigma}
均值 \\mu = E{x} = \\int_{-\\infty}\^{+\\infty} x p(x) d\\mathbf{x} μ i = E { x i } = ∫ − ∞ + ∞ ⋯ ∫ − ∞ + ∞ x i p ( x ) d x 1 d x 2 ⋯ d x d μ = E { x } ∈ R d \mu_i = E\{x_i\} = \int_{-\infty}^{+\infty} \cdots \int_{-\infty}^{+\infty} x_i p(\mathbf{x}) d\mathbf{x}_1 d\mathbf{x}_2 \cdots d\mathbf{x}_d\\\boldsymbol{\mu} = E\{\mathbf{x}\} \in \mathbb{R}^d μi=E{xi}=∫−∞+∞⋯∫−∞+∞xip(x)dx1dx2⋯dxdμ=E{x}∈Rd
方差 \\sigma\^2 = \\int_{-\\infty}\^{+\\infty} (x - \\mu)\^2 p(x) d\\mathbf{x} Σ = E { ( x − μ ) ( x − μ ) T } = [ σ 11 2 σ 12 2 ⋯ σ 1 d 2 σ 12 2 σ 22 2 ⋯ σ 2 d 2 ⋮ ⋮ ⋱ ⋮ σ 1 d 2 σ 2 d 2 ⋯ σ d d 2 ] \boldsymbol{\Sigma} = E\{(\mathbf{x} - \boldsymbol{\mu})(\mathbf{x} - \boldsymbol{\mu})^T\} = \begin{bmatrix} \sigma_{11}^2 & \sigma_{12}^2 & \cdots & \sigma_{1d}^2 \\ \sigma_{12}^2 & \sigma_{22}^2 & \cdots & \sigma_{2d}^2 \\ \vdots & \vdots & \ddots & \vdots \\ \sigma_{1d}^2 & \sigma_{2d}^2 & \cdots & \sigma_{dd}^2 \end{bmatrix} Σ=E{(x−μ)(x−μ)T}= σ112σ122⋮σ1d2σ122σ222⋮σ2d2⋯⋯⋱⋯σ1d2σ2d2⋮σdd2
性质 p(x) \\geq 0,-\\infty \< x \< +\\infty,\\\\int_{-\\infty}\^{+\\infty} p(x) d\\mathbf{x} = 1 p ( x i ) = ∫ − ∞ + ∞ ⋯ ∫ − ∞ + ∞ p ( x ) d x 1 d x 2 ⋯ d x i − 1 d x i + 1 ⋯ d x d p(x_i) = \int_{-\infty}^{+\infty} \cdots \int_{-\infty}^{+\infty} p(\mathbf{x}) d\mathbf{x}1 d\mathbf{x}2 \cdots d\mathbf{x}{i - 1} d\mathbf{x}{i + 1} \cdots d\mathbf{x}_d p(xi)=∫−∞+∞⋯∫−∞+∞p(x)dx1dx2⋯dxi−1dxi+1⋯dxd
等密度轨迹

等密度轨迹为一超椭球面。从多元正态分布函数可以看出,当其指数项等于常数时,密度 p ( x ) p(\mathbf{x}) p(x)的值不变,因此等函数点即为使如下方程为常数的点,即: (\\mathbf{x} - \\boldsymbol{\\mu})\^T \\boldsymbol{\\Sigma}\^{-1} (\\mathbf{x} - \\boldsymbol{\\mu}) = const.

Mahalanobis距离(马氏距离): r 2 = ( x − μ ) T Σ − 1 ( x − μ ) r^2=(\mathbf{x}-\mathbf{\mu})^T\Sigma^{-1}(\mathbf{x}-\mathbf{\mu}) r2=(x−μ)TΣ−1(x−μ)

性质
  1. 不相关性=独立性

  2. 边缘分布与条件分布均为正态分布

  3. 多元正态随机变量的线性变换(非奇异)仍为多元正态分布的随机变量

  4. 线性组合的正态性:若 x \mathbf{x} x为多元正态随机变量,则线性组合 y = a T x \mathbf{y} = \mathbf{a}^T \mathbf{x} y=aTx是一个一维正态随机变量。

  5. 对多元正态分布的协方差矩阵 Σ \Sigma Σ可以进行正交分解。

    1. Σ = U Λ U T \Sigma=U\Lambda U^T Σ=UΛUT
      U U U是 Λ \Lambda Λ对应特征值的特征向量构成的矩阵,属于 R ( Σ ) R(\Sigma) R(Σ)值域空间。
  6. 线性变换 y = A T x , y ∼ N ( A T μ , A T Σ A ) y=A^T\mathbf{x},\ y\sim N(A^T\mu,A^T\Sigma A) y=ATx, y∼N(ATμ,ATΣA)
    C o v ( A X ) = A C o v ( X ) A T 令 A w = U Λ − 1 / 2 , C o v ( A T X ) = Λ − 1 / 2 U Σ U Λ − 1 / 2 = Λ − 1 / 2 Λ Λ − 1 / 2 = I Cov(AX)=ACov(X)A^T\\ 令A_w=U\Lambda^{-1/2},Cov(A^TX)=\Lambda^{-1/2}U\Sigma U\Lambda^{-1/2}=\Lambda^{-1/2}\Lambda\Lambda^{-1/2}=I Cov(AX)=ACov(X)AT令Aw=UΛ−1/2,Cov(ATX)=Λ−1/2UΣUΛ−1/2=Λ−1/2ΛΛ−1/2=I

    白化变换:对 Σ \Sigma Σ进行归一化变成 I I I.

最小错误率贝叶斯决策

对于 c c c类问题,假定各类条件概率密度函数为多元正态分布:
p ( x ∣ ω i ) ∼ N ( μ i , Σ i ) , i = 1 , 2 , ... , c p(\mathbf{x}|\omega_i) \sim N(\boldsymbol{\mu}_i, \boldsymbol{\Sigma}_i), \quad i = 1,2,\ldots,c p(x∣ωi)∼N(μi,Σi),i=1,2,...,c

判别函数(Quadratic discrimin function (QDF)):(i = 1,2,\\ldots,c)
g i ( x ) = ln ⁡ ( p ( x ∣ ω i ) ) + ln ⁡ ( P ( ω i ) ) = − 1 2 ( x − μ i ) T Σ i − 1 ( x − μ i ) − d 2 ln ⁡ ( 2 π ) − 1 2 ln ⁡ ( ∣ Σ i ∣ ) + ln ⁡ ( P ( ω i ) ) \begin{align}g_i(\mathbf{x})&=\ln(p(\mathbf{x}|\omega_i))+\ln(P(\omega_i))\\ &=-\frac{1}{2}(\mathbf{x}-\boldsymbol{\mu}_i)^T\boldsymbol{\Sigma}_i^{-1}(\mathbf{x}-\boldsymbol{\mu}_i)-\frac{d}{2}\ln(2\pi)-\frac{1}{2}\ln(|\boldsymbol{\Sigma}_i|)+\ln(P(\omega_i)) \end{align} gi(x)=ln(p(x∣ωi))+ln(P(ωi))=−21(x−μi)TΣi−1(x−μi)−2dln(2π)−21ln(∣Σi∣)+ln(P(ωi))

决策面方程 :
g i ( x ) = g j ( x ) − 1 2 ( ( x − μ i ) T Σ i − 1 ( x − μ i ) − ( x − μ j ) T Σ j − 1 ( x − μ j ) ) − 1 2 ln ⁡ ( ∣ Σ i ∣ ∣ Σ j ∣ ) + ln ⁡ ( P ( ω i ) P ( ω j ) ) = 0 g_i(\mathbf{x})=g_j(\mathbf{x})\\ -\frac{1}{2}\left((\mathbf{x}-\boldsymbol{\mu}_i)^T\boldsymbol{\Sigma}_i^{-1}(\mathbf{x}-\boldsymbol{\mu}_i)-(\mathbf{x}-\boldsymbol{\mu}_j)^T\boldsymbol{\Sigma}_j^{-1}(\mathbf{x}-\boldsymbol{\mu}_j)\right)-\frac{1}{2}\ln\left(\frac{|\boldsymbol{\Sigma}_i|}{|\boldsymbol{\Sigma}_j|}\right)+\ln\left(\frac{P(\omega_i)}{P(\omega_j)}\right)=0 gi(x)=gj(x)−21((x−μi)TΣi−1(x−μi)−(x−μj)TΣj−1(x−μj))−21ln(∣Σj∣∣Σi∣)+ln(P(ωj)P(ωi))=0

第一种情形: Σ i = σ 2 I , i = 1 , 2 , ... , c \boldsymbol{\Sigma}_i=\sigma^2\mathbf{I}, \quad i = 1,2,\ldots,c Σi=σ2I,i=1,2,...,c

这表明每个特征向量对应的方差都是独立同分布。

协方差矩阵:
Σ i = [ σ 2 0 ⋯ 0 0 σ 2 ⋯ 0 ⋮ ⋮ ⋱ ⋮ 0 0 ⋯ σ 2 ] , ∣ Σ i ∣ = σ 2 d , Σ i − 1 = 1 σ 2 I \boldsymbol{\Sigma}_i=\begin{bmatrix} \sigma^2 & 0 & \cdots & 0 \\ 0 & \sigma^2 & \cdots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots & \sigma^2 \end{bmatrix}, \quad |\boldsymbol{\Sigma}_i|=\sigma^{2d}, \quad \boldsymbol{\Sigma}_i^{-1}=\frac{1}{\sigma^2}\mathbf{I} Σi= σ20⋮00σ2⋮0⋯⋯⋱⋯00⋮σ2 ,∣Σi∣=σ2d,Σi−1=σ21I

判别函数(Quadratic discrimin function (QDF)):
g i ( x ) = − 1 2 σ 2 ( x − μ i ) T ( x − μ i ) − d 2 ln ⁡ ( 2 π ) − 1 2 ln ⁡ ( σ 2 d ) + ln ⁡ ( P ( w i ) ) = − 1 2 σ 2 ( x − μ i ) T ( x − μ i ) + ln ⁡ ( P ( w i ) ) = − 1 2 σ 2 ∥ x − μ i ∥ 2 2 + ln ⁡ ( P ( w i ) ) \begin{align}g_i(\mathbf{x})&=-\frac{1}{2\sigma^2}(\mathbf{x}-\boldsymbol{\mu}_i)^T(\mathbf{x}-\boldsymbol{\mu}_i)-\frac{d}{2}\ln(2\pi)-\frac{1}{2}\ln(\sigma^{2d})+\ln(P(w_i))\\ &=-\frac{1}{2\sigma^2}(\mathbf{x}-\boldsymbol{\mu}_i)^T(\mathbf{x}-\boldsymbol{\mu}_i)+\ln(P(w_i))\\ &=-\frac{1}{2\sigma^2}\|\mathbf{x}-\boldsymbol{\mu}_i\|^2_2+\ln(P(w_i)) \end{align} gi(x)=−2σ21(x−μi)T(x−μi)−2dln(2π)−21ln(σ2d)+ln(P(wi))=−2σ21(x−μi)T(x−μi)+ln(P(wi))=−2σ21∥x−μi∥22+ln(P(wi))

先验概率相等: P ( w i ) = P ( w j ) P(w_i)=P(w_j) P(wi)=P(wj)

此时,判别函数可进一步简化为:
g i ( x ) = − 1 2 σ 2 ∥ x − μ i ∥ 2 2 g_i(\mathbf{x})=-\frac{1}{2\sigma^2}\|\mathbf{x}-\boldsymbol{\mu}_i\|^2_2 gi(x)=−2σ21∥x−μi∥22

因此,最小错误率贝叶斯规则相当简单:

若要对样本 x \mathbf{x} x进行分类,只需要计算 x \mathbf{x} x到各类均值向量的欧氏距离平方,然后将归于距离最短的一类:
arg ⁡ min ⁡ i = 1 , 2 , ... , c ∥ x − μ i ∥ 2 \arg\min_{i = 1,2,\ldots,c}\|\mathbf{x}-\boldsymbol{\mu}_i\|^2 argi=1,2,...,cmin∥x−μi∥2

这种分类器称为最小距离分类器。

先验概率不相等: P ( w i ) ≠ P ( w j ) P(w_i)\neq P(w_j) P(wi)=P(wj)

判别函数:
g i ( x ) = − 1 2 σ 2 ( x − μ i ) T ( x − μ i ) + ln ⁡ ( P ( w i ) ) = − 1 2 σ 2 ( x T x − 2 μ i T x + μ i T μ i ) + ln ⁡ ( P ( w i ) ) = 1 σ 2 μ i T x − 1 2 σ 2 μ i T μ i + ln ⁡ ( P ( w i ) ) = w i T x + w i 0 \begin{align}g_i(\mathbf{x})&=-\frac{1}{2\sigma^2}(\mathbf{x}-\boldsymbol{\mu}_i)^T(\mathbf{x}-\boldsymbol{\mu}_i)+\ln(P(w_i))\\ &=-\frac{1}{2\sigma^2}(\mathbf{x}^T\mathbf{x}-2\boldsymbol{\mu}_i^T\mathbf{x}+\boldsymbol{\mu}_i^T\boldsymbol{\mu}_i)+\ln(P(w_i))\\ &=\frac{1}{\sigma^2}\boldsymbol{\mu}_i^T\mathbf{x}-\frac{1}{2\sigma^2}\boldsymbol{\mu}_i^T\boldsymbol{\mu}_i+\ln(P(w_i))\\ &= \mathbf{w}i^T\mathbf{x}+\mathrm w{i0} \end{align} gi(x)=−2σ21(x−μi)T(x−μi)+ln(P(wi))=−2σ21(xTx−2μiTx+μiTμi)+ln(P(wi))=σ21μiTx−2σ21μiTμi+ln(P(wi))=wiTx+wi0

由于每一类的判别函数均包含 x T x \mathbf{x}^T\mathbf{x} xTx,与下标 i i i无关,因此可以进一步简化为线性判别函数,得到判别函数 g i ( x ) g_i(\mathbf{x}) gi(x)是 x \mathbf{x} x的线性函数。
g i ( x ) = w i T x + w i 0 { w i = 1 σ 2 μ i w i 0 = ln ⁡ ( P ( w i ) ) − 1 2 σ 2 μ i T μ i g_i(x)=\mathbf{w}i^T\mathbf{x}+\mathrm w{i0}\\ \begin{cases}\mathbf{w}_i&=\frac{1}{\sigma^2}\boldsymbol{\mu}i\\ \mathrm w{i0}&=\ln(P(w_i))-\frac{1}{2\sigma^2}\boldsymbol{\mu}_i^T\boldsymbol{\mu}_i\end{cases} gi(x)=wiTx+wi0{wiwi0=σ21μi=ln(P(wi))−2σ21μiTμi

决策规则: 若 g k ( x ) = max ⁡ i g i ( x ) g_k(\mathbf{x})=\max_{i}g_i(\mathbf{x}) gk(x)=maxigi(x),则 x ∈ w k \mathbf{x}\in w_k x∈wk
  • 判别函数为线性函数的分类器称为线性分类器。

  • 线性分类器的决策面方程为: g i ( x ) − g j ( x ) = 0 g_i(\mathbf{x}) - g_j(\mathbf{x})=0 gi(x)−gj(x)=0所确定的一个超平面。
    g i ( x ) − g j ( x ) = 0 ⇒ w T ( x − x 0 ) = 0 g_i(\mathbf{x})-g_j(\mathbf{x})=0 \Rightarrow \mathbf{w}^T(\mathbf{x}-\mathbf{x}_0)=0 gi(x)−gj(x)=0⇒wT(x−x0)=0

    先验概率相等 P ( w i ) = P ( w j ) P(w_i)=P(w_j) P(wi)=P(wj) 先验概率不等 P ( w i ) ≠ P ( w j ) P(w_i)\neq P(w_j) P(wi)=P(wj)
    w = μ i − μ j \mathbf{w}=\boldsymbol{\mu}_i - \boldsymbol{\mu}_j w=μi−μj w = μ i − μ j \mathbf{w}=\boldsymbol{\mu}_i - \boldsymbol{\mu}_j w=μi−μj
    x 0 = 1 2 ( μ i + μ j ) \mathbf{x}_0=\frac{1}{2}(\boldsymbol{\mu}_i+\boldsymbol{\mu}_j) x0=21(μi+μj) KaTeX parse error: {align} can be used only in display mode.

先验概率相等:取欧式距离的中点划分。

先验概率不等:根据 s i j s_{ij} sij的大小会偏斜 先验概率较小的一边。

  • P ( w i ) > P ( w j ) , s i j > 0 P(w_i)> P(w_j),s_{ij}>0 P(wi)>P(wj),sij>0: 会向 R j R_j Rj偏.
  • P ( w i ) < P ( w j ) , s i j > 0 P(w_i)< P(w_j),s_{ij}>0 P(wi)<P(wj),sij>0: 会向 R i R_i Ri偏.
第二种情形: Σ i = Σ , i = 1 , 2 , ... , c \boldsymbol{\Sigma}_i=\boldsymbol{\Sigma}, \quad i = 1,2,\ldots,c Σi=Σ,i=1,2,...,c

各类的协方差矩阵均相等。从几何上看,相当于各类样本集中于以该类均值 μ i \boldsymbol{\mu}_i μi为中心但大小和形状相同的椭球内。

判别函数(Quadratic discriminant function (QDF)):
g i ( x ) = ln ⁡ ( p ( x ∣ ω i ) ) + ln ⁡ ( P ( ω i ) ) = − 1 2 ( x − μ i ) T Σ − 1 ( x − μ i ) − d 2 ln ⁡ ( 2 π ) − 1 2 ln ⁡ ( ∣ Σ ∣ ) + ln ⁡ ( P ( ω i ) ) = − 1 2 ( x − μ i ) T Σ − 1 ( x − μ i ) + ln ⁡ ( P ( ω i ) ) \begin{align}g_i(\mathbf{x})&=\ln(p(\mathbf{x}|\omega_i))+\ln(P(\omega_i))\\ &=-\frac{1}{2}(\mathbf{x}-\boldsymbol{\mu}_i)^T\boldsymbol{\Sigma}^{-1}(\mathbf{x}-\boldsymbol{\mu}_i)-\frac{d}{2}\ln(2\pi)-\frac{1}{2}\ln(|\boldsymbol{\Sigma}|)+\ln(P(\omega_i))\\ &=-\frac{1}{2}(\mathbf{x}-\boldsymbol{\mu}_i)^T\boldsymbol{\Sigma}^{-1}(\mathbf{x}-\boldsymbol{\mu}_i)+\ln(P(\omega_i)) \end{align} gi(x)=ln(p(x∣ωi))+ln(P(ωi))=−21(x−μi)TΣ−1(x−μi)−2dln(2π)−21ln(∣Σ∣)+ln(P(ωi))=−21(x−μi)TΣ−1(x−μi)+ln(P(ωi))

先验概率相等: P ( w i ) = P ( w j ) P(w_i)=P(w_j) P(wi)=P(wj)

判别函数:
g i ( x ) = r 2 = ( x − μ i ) T Σ − 1 ( x − μ i ) g_i(\mathbf{x})=r^2 = (\mathbf{x}-\boldsymbol{\mu}_i)^T\boldsymbol{\Sigma}^{-1}(\mathbf{x}-\boldsymbol{\mu}_i) gi(x)=r2=(x−μi)TΣ−1(x−μi)

决策规则: 若要对样本 x \mathbf{x} x进行分类,只需要计算 x \mathbf{x} x到各类均值向量的马氏距离平方,然后将归于距离最短的一类:
arg ⁡ min ⁡ i = 1 , 2 , ... , c ( x − μ i ) T Σ − 1 ( x − μ i ) \arg\min_{i = 1,2,\ldots,c}(\mathbf{x}-\boldsymbol{\mu}_i)^T\boldsymbol{\Sigma}^{-1}(\mathbf{x}-\boldsymbol{\mu}_i) argi=1,2,...,cmin(x−μi)TΣ−1(x−μi)

先验概率不相等: P ( w i ) ≠ P ( w j ) P(w_i)\neq P(w_j) P(wi)=P(wj)

判别函数:
g i ( x ) = − 1 2 ( x − μ i ) T Σ − 1 ( x − μ i ) + ln ⁡ ( P ( ω i ) ) = − 1 2 ( x T Σ − 1 x − 2 μ i T Σ − 1 x + μ i T Σ − 1 μ i ) + ln ⁡ ( P ( ω i ) ) = μ i Σ − 1 x − 1 2 μ i T Σ − 1 μ i + ln ⁡ ( P ( ω i ) ) = w i T x + w i 0 { w i = Σ − 1 μ i w i 0 = ln ⁡ ( P ( ω i ) ) − 1 2 μ i T Σ − 1 μ i \ \begin{align} g_i(\mathbf{x})&=-\frac{1}{2}(\mathbf{x}-\boldsymbol{\mu}_i)^T\boldsymbol{\Sigma}^{-1}(\mathbf{x}-\boldsymbol{\mu}_i)+\ln(P(\omega_i)) \\ &=-\frac{1}{2}(\mathbf{x}^T\boldsymbol{\Sigma}^{-1}\mathbf{x}-2\boldsymbol{\mu}_i^T\boldsymbol{\Sigma}^{-1}\mathbf{x}+\boldsymbol{\mu}_i^T\boldsymbol{\Sigma}^{-1}\boldsymbol{\mu}_i)+\ln(P(\omega_i)) \\ &=\boldsymbol\mu_i\boldsymbol\Sigma^{-1}\mathbf{x}-\frac 1 2 \boldsymbol{\mu}_i^T\boldsymbol{\Sigma}^{-1}\boldsymbol{\mu}_i+\ln(P(\omega_i)) \\ &=\mathbf{w}i^T\mathbf{x}+\mathrm w{i0}\\\\ &\begin{cases} \mathbf{w}_i&=\boldsymbol{\Sigma}^{-1}\boldsymbol{\mu}i\\ \mathrm w{i0}&=\ln(P(\omega_i))-\frac{1}{2}\boldsymbol{\mu}_i^T\boldsymbol{\Sigma}^{-1}\boldsymbol{\mu}_i \end{cases} \end{align} gi(x)=−21(x−μi)TΣ−1(x−μi)+ln(P(ωi))=−21(xTΣ−1x−2μiTΣ−1x+μiTΣ−1μi)+ln(P(ωi))=μiΣ−1x−21μiTΣ−1μi+ln(P(ωi))=wiTx+wi0{wiwi0=Σ−1μi=ln(P(ωi))−21μiTΣ−1μi

决策面方程: g i ( x ) − g j ( x ) = 0 g_i(\mathbf{x})-g_j(\mathbf{x})=0 gi(x)−gj(x)=0

展开可得: w T ( x − x 0 ) = 0 \mathbf{w}^T(\mathbf{x}-\mathbf{x}_0)=0 wT(x−x0)=0 ( 这是线性判别函数 )

先验概率相等 P ( w i ) = P ( w j ) P(w_i)=P(w_j) P(wi)=P(wj) 先验概率不相等 P ( w i ) ≠ P ( w j ) P(w_i)\neq P(w_j) P(wi)=P(wj)
w = Σ − 1 ( μ i − μ j ) \mathbf{w}=\boldsymbol{\Sigma}^{-1}(\boldsymbol{\mu}_i-\boldsymbol{\mu}_j) w=Σ−1(μi−μj) w = Σ − 1 ( μ i − μ j ) \mathbf{w}=\boldsymbol{\Sigma}^{-1}(\boldsymbol{\mu}_i-\boldsymbol{\mu}_j) w=Σ−1(μi−μj)
x 0 = 1 2 ( μ i + μ j ) \mathbf{x}_0=\frac{1}{2}(\boldsymbol{\mu}_i+\boldsymbol{\mu}_j) x0=21(μi+μj) KaTeX parse error: {align} can be used only in display mode.
第三种情形: Σ i ≠ Σ j , i , j = 1 , 2 , ... , c \boldsymbol{\Sigma}_i\neq\boldsymbol{\Sigma}_j, \quad i,j = 1,2,\ldots,c Σi=Σj,i,j=1,2,...,c

判别函数:
g i ( x ) = ln ⁡ ( p ( x ∣ ω i ) ) + ln ⁡ ( P ( ω i ) ) = − 1 2 ( x − μ i ) T Σ i − 1 ( x − μ i ) − d 2 ln ⁡ ( 2 π ) − 1 2 ln ⁡ ( ∣ Σ i ∣ ) + ln ⁡ ( P ( ω i ) ) = − 1 2 ( x − μ i ) T Σ i − 1 ( x − μ i ) − 1 2 ln ⁡ ( ∣ Σ i ∣ ) + ln ⁡ ( P ( ω i ) ) = x T W i x + w i T x + w i 0 { W i = − 1 2 Σ i − 1 w i = Σ i − 1 μ i w i 0 = − 1 2 μ i T Σ i − 1 μ i − 1 2 ln ⁡ ( ∣ Σ i ∣ ) + ln ⁡ ( P ( ω i ) ) \begin{align}g_i(\mathbf{x})&=\ln(p(\mathbf{x}|\omega_i))+\ln(P(\omega_i))\\ &=-\frac{1}{2}(\mathbf{x}-\boldsymbol{\mu}_i)^T\boldsymbol{\Sigma}_i^{-1}(\mathbf{x}-\boldsymbol{\mu}_i)-\frac{d}{2}\ln(2\pi)-\frac{1}{2}\ln(|\boldsymbol{\Sigma}_i|)+\ln(P(\omega_i))\\ &=-\frac{1}{2}(\mathbf{x}-\boldsymbol{\mu}_i)^T\boldsymbol{\Sigma}_i^{-1}(\mathbf{x}-\boldsymbol{\mu}_i)-\frac{1}{2}\ln(|\boldsymbol{\Sigma}_i|)+\ln(P(\omega_i))\\ &=\mathbf{x}^T\mathbf{W}_i\mathbf{x}+\mathbf{w}i^T\mathbf{x}+\mathrm w{i0}\\ &\begin{cases} \mathbf{W}_i &= -\frac{1}{2}\boldsymbol{\Sigma}_i^{-1}\\ \mathbf{w}_i&=\boldsymbol{\Sigma}_i^{-1}\boldsymbol{\mu}i\\ \mathrm w{i0}&=-\frac{1}{2}\boldsymbol{\mu}_i^T\boldsymbol{\Sigma}_i^{-1}\boldsymbol{\mu}_i-\frac{1}{2}\ln(|\boldsymbol{\Sigma}_i|)+\ln(P(\omega_i)) \end{cases} \end{align} gi(x)=ln(p(x∣ωi))+ln(P(ωi))=−21(x−μi)TΣi−1(x−μi)−2dln(2π)−21ln(∣Σi∣)+ln(P(ωi))=−21(x−μi)TΣi−1(x−μi)−21ln(∣Σi∣)+ln(P(ωi))=xTWix+wiTx+wi0⎩ ⎨ ⎧Wiwiwi0=−21Σi−1=Σi−1μi=−21μiTΣi−1μi−21ln(∣Σi∣)+ln(P(ωi))

决策方程:
g i ( x ) − g j ( x ) = 0 x T ( W i − W j ) x + ( w i − w j ) T x + w i 0 − w j 0 = 0 g_i(\mathbf{x})-g_j(\mathbf{x})=0\\ \mathbf{x}^T(\mathbf{W}_i-\mathbf{W}_j)\mathbf{x}+(\mathbf{w}i-\mathbf{w}j)^T\mathbf{x}+w{i0}-w{j0}=0 gi(x)−gj(x)=0xT(Wi−Wj)x+(wi−wj)Tx+wi0−wj0=0

决策面为一个超二次曲面。随着 Σ i \boldsymbol{\Sigma}_i Σi、 μ i \boldsymbol{\mu}_i μi、 P ( w i ) P(w_i) P(wi)等的不同而呈现出超球面、超椭球面、超双曲面或超平面等不同的情形。

例子: c=2, 2D

P ( ω 1 ) = P ( ω 2 ) = 0.5 μ 1 = [ 3 6 ] ; Σ 1 = [ 1 / 2 0 0 2 ] ; Σ 1 − 1 = [ 2 0 0 1 / 2 ] μ 2 = [ 3 − 2 ] ; Σ 2 = [ 2 0 0 2 ] ; Σ 2 − 1 = [ 1 / 2 0 0 1 / 2 ] P(\omega_1)=P(\omega_2)=0.5\\\boldsymbol{\mu}_1 = \begin{bmatrix} 3 \\ 6 \end{bmatrix} ; \boldsymbol{\Sigma}_1 = \begin{bmatrix} 1/2 & 0 \\ 0 & 2 \end{bmatrix} ; \boldsymbol{\Sigma}_1^{-1} = \begin{bmatrix} 2 & 0 \\ 0 & 1/2 \end{bmatrix}\\ \boldsymbol{\mu}_2 = \begin{bmatrix} 3 \\ -2 \end{bmatrix} ; \boldsymbol{\Sigma}_2 = \begin{bmatrix} 2 & 0 \\ 0 & 2 \end{bmatrix} ; \boldsymbol{\Sigma}_2^{-1} = \begin{bmatrix} 1/2 & 0 \\ 0 & 1/2 \end{bmatrix} P(ω1)=P(ω2)=0.5μ1=[36];Σ1=[1/2002];Σ1−1=[2001/2]μ2=[3−2];Σ2=[2002];Σ2−1=[1/2001/2]

对于两类问题, Σ i ≠ Σ j \boldsymbol{\Sigma}_i\neq\boldsymbol{\Sigma}_j Σi=Σj,先验相等。
g i ( x ) = − 1 2 ( x − μ i ) T Σ i − 1 ( x − μ i ) − 1 2 ln ⁡ ( ∣ Σ i ∣ ) + ln ⁡ ( P ( ω i ) ) g_i(\mathbf{x})=-\frac{1}{2}(\mathbf{x}-\boldsymbol{\mu}_i)^T\boldsymbol{\Sigma}_i^{-1}(\mathbf{x}-\boldsymbol{\mu}_i)-\frac{1}{2}\ln(|\boldsymbol{\Sigma}_i|)+\ln(P(\omega_i)) gi(x)=−21(x−μi)TΣi−1(x−μi)−21ln(∣Σi∣)+ln(P(ωi))

决策面方程为 g 1 ( x ) − g 2 ( x ) = 0 g_1(\mathbf{x}) - g_2(\mathbf{x}) = 0 g1(x)−g2(x)=0。
( x − μ 1 ) T Σ 1 − 1 ( x − μ 1 ) + ln ⁡ ( ∣ Σ 1 ∣ ) = ( x − μ 2 ) T Σ 2 − 1 ( x − μ 2 ) + ln ⁡ ( ∣ Σ 2 ∣ ) ( x − μ 1 ) T Σ 1 − 1 ( x − μ 1 ) = ( x 1 − 3 , x 2 − 6 ) [ 2 0 0 1 / 2 ] [ x 1 − 3 x 2 − 6 ] ln ⁡ ( ∣ Σ 1 ∣ ) = ln ⁡ ( 1 ) = 0 , ln ⁡ ( ∣ Σ 2 ∣ ) = ln ⁡ ( 4 ) = 2 ln ⁡ ( 2 ) ( x − μ 2 ) T Σ 2 − 1 ( x − μ 2 ) = ( x 1 − 3 , x 2 + 2 ) [ 1 / 2 0 0 1 / 2 ] [ x 1 − 3 x 2 + 2 ] (\mathbf{x}-\boldsymbol{\mu}_1)^T\boldsymbol{\Sigma}_1^{-1}(\mathbf{x}-\boldsymbol{\mu}_1)+\ln(|\boldsymbol{\Sigma}_1|)=(\mathbf{x}-\boldsymbol{\mu}_2)^T\boldsymbol{\Sigma}_2^{-1}(\mathbf{x}-\boldsymbol{\mu}_2)+\ln(|\boldsymbol{\Sigma}_2|)\\ (\mathbf{x}-\boldsymbol{\mu}_1)^T\boldsymbol{\Sigma}_1^{-1}(\mathbf{x}-\boldsymbol{\mu}_1)=(x_1 - 3, x_2 - 6)\left[\begin{matrix}2&0\\0&1/2\end{matrix}\right]\left[\begin{matrix}x_1 - 3\\x_2 - 6\end{matrix}\right]\\ \ln(|\boldsymbol{\Sigma}_1|)=\ln(1)=0,\ln(|\boldsymbol{\Sigma}_2|)=\ln(4)=2\ln(2)\\ (\mathbf{x}-\boldsymbol{\mu}_2)^T\boldsymbol{\Sigma}_2^{-1}(\mathbf{x}-\boldsymbol{\mu}_2)=(x_1 - 3, x_2 + 2)\left[\begin{matrix}1/2&0\\0&1/2\end{matrix}\right]\left[\begin{matrix}x_1 - 3\\ x_2 + 2\end{matrix}\right]\\ (x−μ1)TΣ1−1(x−μ1)+ln(∣Σ1∣)=(x−μ2)TΣ2−1(x−μ2)+ln(∣Σ2∣)(x−μ1)TΣ1−1(x−μ1)=(x1−3,x2−6)[2001/2][x1−3x2−6]ln(∣Σ1∣)=ln(1)=0,ln(∣Σ2∣)=ln(4)=2ln(2)(x−μ2)TΣ2−1(x−μ2)=(x1−3,x2+2)[1/2001/2][x1−3x2+2]

− ( 2 ( x 1 − 3 ) 2 + 1 2 ( x 2 − 6 ) 2 ) + ( 1 2 ( x 1 − 3 ) 2 + 1 2 ( x 2 + 2 ) 2 ) + 2 ln ⁡ ( 2 ) = 0 − 2 ( x 1 − 3 ) 2 − 1 2 ( x 2 − 6 ) 2 + 1 2 ( x 1 − 3 ) 2 + 1 2 ( x 2 + 2 ) 2 + 2 ln ⁡ ( 2 ) = 0 ( − 2 + 1 2 ) ( x 1 − 3 ) 2 − 1 2 ( x 2 − 6 ) 2 + 1 2 ( x 2 + 2 ) 2 + 2 ln ⁡ ( 2 ) = 0 − 3 2 ( x 1 − 3 ) 2 + 8 x 2 − 16 + 2 ln ⁡ 2 = 0 -(2(x_1 - 3)^2+\frac{1}{2}(x_2 - 6)^2)+(\frac{1}{2}(x_1 - 3)^2+\frac{1}{2}(x_2 + 2)^2)+2\ln(2)=0\\ -2(x_1 - 3)^2-\frac{1}{2}(x_2 - 6)^2+\frac{1}{2}(x_1 - 3)^2+\frac{1}{2}(x_2 + 2)^2+2\ln(2)=0\\ (-2 + \frac{1}{2})(x_1 - 3)^2-\frac{1}{2}(x_2 - 6)^2+\frac{1}{2}(x_2 + 2)^2+2\ln(2)=0\\ -\frac{3}{2}(x_1 - 3)^2+8x_2-16+2\ln2=0 −(2(x1−3)2+21(x2−6)2)+(21(x1−3)2+21(x2+2)2)+2ln(2)=0−2(x1−3)2−21(x2−6)2+21(x1−3)2+21(x2+2)2+2ln(2)=0(−2+21)(x1−3)2−21(x2−6)2+21(x2+2)2+2ln(2)=0−23(x1−3)2+8x2−16+2ln2=0

所以,此例子的决策面方程为 x 2 = 3.514 − 1.125 x 1 + 0.1875 x 1 2 x2=3.514-1.125x_1+0.1875x_1^2 x2=3.514−1.125x1+0.1875x12。

相关推荐
万行16 小时前
机器学习&第三章
人工智能·python·机器学习·数学建模·概率论
一碗姜汤17 小时前
【统计基础】卡尔曼滤波,矩阵对迹求导,Joseph Form,条件数
线性代数·矩阵
sunfove18 小时前
麦克斯韦方程组 (Maxwell‘s Equations) 的完整推导
线性代数·算法·矩阵
yyy(十一月限定版)19 小时前
matlab矩阵的操作
算法·matlab·矩阵
ComputerInBook19 小时前
代数学基本概念理解——幺正矩阵(Unitary matrix)(酉矩阵?)
线性代数·矩阵·正交矩阵·幺正矩阵·酉矩阵
AI科技星1 天前
光速飞行器动力学方程的第一性原理推导、验证与范式革命
数据结构·人工智能·线性代数·算法·机器学习·概率论
一碗姜汤1 天前
【统计基础】从线性代数的直观角度理解SVD奇异值分解
线性代数
好奇龙猫1 天前
【大学院-筆記試験練習:线性代数和数据结构(5)】
数据结构·线性代数
jinmo_C++1 天前
Leetcode矩阵
算法·leetcode·矩阵
愚公搬代码2 天前
【愚公系列】《AI+直播营销》015-直播的选品策略(设计直播产品矩阵)
人工智能·线性代数·矩阵