周志华《机器学习---西瓜书》三

周志华《机器学习---西瓜书》三

三、线性回归

3-1、基本线性回归:

线性模型试图学的一个通过属性的线性组合来进行预测的函数式为 f(x)=w1x1+w2x2+⋯+wdxd+bf(\boldsymbol{x}) = w_1x_1 + w_2x_2 + \dots + w_dx_d + bf(x)=w1x1+w2x2+⋯+wdxd+b

向量形式:f(x)=wTx+bf(\boldsymbol{x}) = \boldsymbol{w}^\text{T}\boldsymbol{x} + bf(x)=wTx+b 其中 w=(w1,w2,...,wd)T\boldsymbol{w} = (w_1, w_2, \dots, w_d)^\text{T}w=(w1,w2,...,wd)T 是权重向量,bbb 是偏置

优点:简单、基本、可理解性好

可以分为:离散变量和连续变量

目标: f(xi)=wxi+bf(x_i) = wx_i + bf(xi)=wxi+b 目标是让 f(xi)≈yif(x_i) \approx y_if(xi)≈yi

离散属性的处理:若有 " 序 " (order),则连续化;否则,转化为k维向量

最小二乘法求解过程:

令均方误差最小化有:

(w∗,b∗)=arg⁡min⁡(w,b)∑i=1m(f(xi)−yi)2=arg⁡min⁡(w,b)∑i=1m(yi−wxi−b)2 \begin{align*} (w^*, b^*) &= \arg\min_{(w,b)} \sum_{i=1}^m \left(f\left(x_i\right) - y_i\right)^2 \\ &= \arg\min_{(w,b)} \sum_{i=1}^m \left(y_i - wx_i - b\right)^2 \end{align*} (w∗,b∗)=arg(w,b)mini=1∑m(f(xi)−yi)2=arg(w,b)mini=1∑m(yi−wxi−b)2

然后对 E(w,b)=∑i=1m(yi−wxi−b)2E_{(w,b)} = \sum_{i=1}^m (y_i - wx_i - b)^2E(w,b)=∑i=1m(yi−wxi−b)2 进行最小二乘参数估计。其中m 是样本数量

损失函数: E(w,b)=∑i=1m(yi−wxi−b)2E_{(w,b)} = \sum_{i=1}^m (y_i - wx_i - b)^2E(w,b)=∑i=1m(yi−wxi−b)2

对www求偏导 : ∂E(w,b)∂w=2(w∑i=1mxi2−∑i=1m(yi−b)xi)\frac{\partial E_{(w,b)}}{\partial w} = 2\left( w\sum_{i=1}^{m} x_i^2 - \sum_{i=1}^{m} (y_i - b)x_i \right)∂w∂E(w,b)=2(w∑i=1mxi2−∑i=1m(yi−b)xi)

对bbb求偏导: ∂E(w,b)∂b=2(mb−∑i=1m(yi−wxi))\frac{\partial E_{(w,b)}}{\partial b} = 2\left( mb - \sum_{i=1}^{m} (y_i - wx_i) \right)∂b∂E(w,b)=2(mb−∑i=1m(yi−wxi))

闭式解(令导数为0求解):

权重( w ): w=∑i=1myi(xi−xˉ)∑i=1mxi2−1m(∑i=1mxi)2w = \frac{\sum_{i=1}^{m} y_i (x_i - \bar{x})}{\sum_{i=1}^{m} x_i^2 - \frac{1}{m}\left( \sum_{i=1}^{m} x_i \right)^2}w=∑i=1mxi2−m1(∑i=1mxi)2∑i=1myi(xi−xˉ)

偏置( b ): b=1m∑i=1m(yi−wxi)b = \frac{1}{m}\sum_{i=1}^{m} (y_i - wx_i)b=m1∑i=1m(yi−wxi)

3-2、多元线性回归

模型: f(xi)=wTxi+b使得f(xi)≃yif \left( \boxed{x}_i \right) = \boxed{w}^\mathrm{T} \boxed{x}_i + b \quad \text{使得} \quad f \left( \boxed{x}_i \right) \simeq y_if(xi)=wTxi+b使得f(xi)≃yi

变量定义: 样本特征向量:xi=(xi1;xi2;... ;xid)\boxed{x}i = (x{i1}; x_{i2}; \dots; x_{id})xi=(xi1;xi2;...;xid)

样本标签:yi∈Ry_i \in \mathbb{R}yi∈R

向量形式与数据集表示:

将权重 w\boxed{w}w 和偏置 bbb 吸收为向量w^=(w;b)\hat{\boxed{w}} = (\boxed{w}; b)w^=(w;b) ,数据集表示为:

  • 特征矩阵 X\mathbf{X}X:
    X=(x11x12⋯x1d1x21x22⋯x2d1⋮⋮⋱⋮⋮xm1xm2⋯xmd1)=(x1T1x2T1⋮⋮xmT1)\mathbf{X} = \begin{pmatrix} x_{11} & x_{12} & \cdots & x_{1d} & 1 \\ x_{21} & x_{22} & \cdots & x_{2d} & 1 \\ \vdots & \vdots & \ddots & \vdots & \vdots \\ x_{m1} & x_{m2} & \cdots & x_{md} & 1 \\ \end{pmatrix} = \begin{pmatrix} \boxed{x}_1^\mathrm{T} & 1 \\ \boxed{x}_2^\mathrm{T} & 1 \\ \vdots & \vdots \\ \boxed{x}_m^\mathrm{T} & 1 \\ \end{pmatrix}X= x11x21⋮xm1x12x22⋮xm2⋯⋯⋱⋯x1dx2d⋮xmd11⋮1 = x1Tx2T⋮xmT11⋮1

  • 标签向量 y\boxed{y}y :

    y=(y1;y2;... ;ym)\boxed{y} = (y_1; y_2; \dots; y_m)y=(y1;y2;...;ym)

同样采用最小二乘法求解:

多元线性回归的最小二乘求解

优化目标: w^∗=arg⁡min⁡w^(y−Xw^)T(y−Xw^)\hat{w}^* = \arg\min_{\hat{w}} \left( y - \mathbf{X}\hat{w} \right)^\mathrm{T} \left( y - \mathbf{X}\hat{w} \right)w^∗=argminw^(y−Xw^)T(y−Xw^)

损失函数定义: Ew^=(y−Xw^)T(y−Xw^)E_{\hat{w}} = \left( y - \mathbf{X}\hat{w} \right)^\mathrm{T} \left( y - \mathbf{X}\hat{w} \right)Ew^=(y−Xw^)T(y−Xw^)

对 w^\hat{w}w^求偏导: ∂Ew^∂w^=2XT(Xw^−y)\frac{\partial E_{\hat{w}}}{\partial \hat{w}} = 2\mathbf{X}^\mathrm{T} \left( \mathbf{X}\hat{w} - y \right)∂w^∂Ew^=2XT(Xw^−y)

令偏导为 0,求解 w^\hat{w}w^ ,闭式解(矩阵满秩 / 正定情况): w^∗=(XTX)−1XTy\hat{w}^* = \left( \mathbf{X}^\mathrm{T}\mathbf{X} \right)^{-1} \mathbf{X}^\mathrm{T}yw^∗=(XTX)−1XTy

说明:若 XTX\mathbf{X}^\mathrm{T}\mathbf{X}XTX 不满秩,会存在多个解,此时需引入正则化

3-3、线性模型变化

令预测值逼近y的衍生物?

对于样例 (x,y)(y∈R)(x, y) (y \in \mathbb{R})(x,y)(y∈R),希望线性模型的预测值逼近真实标记,得到线性回归模型 y=wTx+by = w^\mathrm{T}x + by=wTx+b

令预测值逼近 y 的衍生物 ,例如令:ln⁡y=wTx+b\ln y = w^\mathrm{T}x + blny=wTx+b 则得到对数线性回归(log-linear regression)

其本质是用 ewTx+be^{w^\mathrm{T}x + b}ewTx+b 逼近 y,即模型实际形式为: y≈ewTx+by \approx e^{w^\mathrm{T}x + b}y≈ewTx+b

右侧图表直观展示了这一过程:对原始标签 yiy_iyi 取对数 yi′=ln⁡yiy_i' = \ln y_iyi′=lnyi 后, y′y'y′ 与线性模型 wTx+bw^\mathrm{T}x + bwTx+b 拟合,而原始 y 则由指数形式 ewTx+be^{w^\mathrm{T}x + b}ewTx+b 逼近。

3-4、广义线性模型

一般形式: y=g−1(wTx+b)y = g^{-1} \left( w^\mathrm{T}x + b \right)y=g−1(wTx+b)

其中,(g−1)( g^{-1} )(g−1)是 单调可微的联系函数(link function)

示例(对数线性回归):

令 (g(⋅)=ln⁡(⋅))( g(\cdot) = \ln(\cdot) )(g(⋅)=ln(⋅)) ,则模型形式为: ln⁡y=wTx+b\ln y = w^\mathrm{T}x + blny=wTx+b

3-5、二分类任务

  • 线性回归模型的实值输出:(z=wTx+b)( z = {w}^\mathrm{T}{x} + b )(z=wTx+b)
  • 二分类的期望输出:y∈(0,1)y \in ({ 0, 1 } )y∈(0,1)
  • 核心问题: ( z ) ( y ) 的联系函数

理想的"单位阶跃函数"(unit-step function)

y={0,z<0;0.5,z=0;1,z>0, y = \begin{cases} 0, & z < 0; \\ 0.5, & z = 0; \\ 1, & z > 0, \end{cases} y=⎩ ⎨ ⎧0,0.5,1,z<0;z=0;z>0,

该函数性质不好(不连续、不可微),需找替代函数 (surrogate function)

常用替代:对数几率函数(logistic function,简称"对率函数")

y=11+e−zy = \frac{1}{1 + e^{-z}}y=1+e−z1

它具有单调可微、任意阶可导的性质,可作为单位阶跃函数的光滑近似。

注意事项

Logistic 与"逻辑"无直接关系:

  1. 其词源是 Logit,而非 Logic;
  2. 输出是实数值(概率意义),并非"非0即1"的逻辑值。

3-6、对率回归

以对率函数为联系函数,将 y=11+e−zy = \frac{1}{1 + e^{-z}}y=1+e−z1 中的 z 替换为 wTx+b{w}^\mathrm{T}{x} + bwTx+b,得到:

变形可得:
ln⁡(y1−y)=wTx+b\ln\left( \frac{y}{1 - y} \right) = \boxed{w}^\mathrm{T}\boxed{x} + bln(1−yy)=wTx+b

其中,y1−y\frac{y}{1 - y}1−yy 是几率(odds) ,反映了 ( x ) 作为正例的相对可能性; ln⁡(y1−y)\ln\left( \frac{y}{1 - y} \right)ln(1−yy) 是对数几率(log odds,亦称 logit)

该模型称为对数几率回归(logistic regression) ,简称对率回归

对率回归的特点

  • 无需事先假设数据分布;
  • 可得到"类别"的近似概率预测;
  • 可直接应用现有数值优化算法求取最优解

注意:它是分类学习算法

求解思路
  1. 变量简化: 令 β=(w;b),x^=(x;1)\beta = (w; b),\hat{x} = (x; 1)β=(w;b),x^=(x;1), 则 wTx+bw^\mathrm{T}x + bwTx+b 可简写为 βTx^\beta^\mathrm{T}\hat{x}βTx^。
  2. 概率定义:
    定义正例概率 : p1(x^i;β)=p(y=1∣x^;β)=ewTx+b1+ewTx+bp_1(\hat{x}_i; \beta) = p(y=1 \mid \hat{x}; \beta) = \frac{e^{w^\mathrm{T}x+b}}{1 + e^{w^\mathrm{T}x+b}}p1(x^i;β)=p(y=1∣x^;β)=1+ewTx+bewTx+b;
    负例概率 p0(x^i;β)=p(y=0∣x^;β)=1−p1(x^i;β)=11+ewTx+bp_0(\hat{x}_i; \beta) = p(y=0 \mid \hat{x}; \beta) = 1 - p_1(\hat{x}_i; \beta) = \frac{1}{1 + e^{w^\mathrm{T}x+b}}p0(x^i;β)=p(y=0∣x^;β)=1−p1(x^i;β)=1+ewTx+b1。
  3. 似然项重写: p(yi∣xi;w,b)=yip1(x^i;β)+(1−yi)p0(x^i;β)p(y_i \mid x_i; w, b) = y_i p_1(\hat{x}_i; \beta) + (1 - y_i) p_0(\hat{x}_i; \beta)p(yi∣xi;w,b)=yip1(x^i;β)+(1−yi)p0(x^i;β)。
  4. 最大化似然函数:
    似然函数 ℓ(w,b)=∑i=1mln⁡p(yi∣xi;w,b)\ell(w, b) = \sum_{i=1}^{m} \ln p(y_i \mid x_i; w, b)ℓ(w,b)=∑i=1mlnp(yi∣xi;w,b) ,
    等价于最小化 ℓ(β)=∑i=1m(−yiβTx^i+ln⁡(1+eβTx^i))\ell(\beta) = \sum_{i=1}^{m} \left( -y_i \beta^\mathrm{T}\hat{x}_i + \ln\left( 1 + e^{\beta^\mathrm{T}\hat{x}_i} \right) \right)ℓ(β)=∑i=1m(−yiβTx^i+ln(1+eβTx^i))。
  5. 优化特性:
    该目标函数是高阶可导的连续凸函数,可通过经典数值优化方法(如梯度下降法、牛顿法)求解。

手推:

  • 最大化联合概率:
    max⁡(P(真是+)P(预测为+)+P(真是−)P(预测为−))\max \left( P(\text{真是}+)P(\text{预测为}+) + P(\text{真是}-)P(\text{预测为}-) \right)max(P(真是+)P(预测为+)+P(真是−)P(预测为−))

  • 取对数后(似然函数的对数形式): max⁡(ln⁡(y⋅eβTx1+eβTx+(1−y)⋅11+eβTx))\max ( \ln \left( y \cdot \frac{e^{\beta^\mathrm{T}x}}{1 + e^{\beta^\mathrm{T}x}} + (1 - y) \cdot \frac{1}{1 + e^{\beta^\mathrm{T}x}} \right) )max(ln(y⋅1+eβTxeβTx+(1−y)⋅1+eβTx1))

    说明:其中,yyy 为真实标签 y=1y=1y=1 表示正例, y=0y=0y=0 表示负例), βTx\beta^\mathrm{T}xβTx 是线性组合项,eβTx1+eβTx\frac{e^{\beta^\mathrm{T}x}}{1 + e^{\beta^\mathrm{T}x}}1+eβTxeβTx 是对率回归中预测为正例的概率,11+eβTx\frac{1}{1 + e^{\beta^\mathrm{T}x}}1+eβTx1 是预测为负例的概率。

  • 括号内容合并,原式可写为:max⁡(ln⁡(yeβTx+(1−y)1+eβTx))\max ( \ln \left( \frac{y e^{\beta^\mathrm{T}x} + (1 - y)}{1 + e^{\beta^\mathrm{T}x}} \right) )max(ln(1+eβTxyeβTx+(1−y)))

    括号里边分情况讨论: 单样本对数似然项={βTx−ln⁡(1+eβTx=ln⁡eβTx−ln⁡(1+eβTx)=ln⁡eβTx1+eβTx), y=1−ln⁡(1+eβTx=ln⁡1−ln⁡(1+eβTx)=ln⁡11+eβTx), y=0\text{单样本对数似然项} = \begin{cases} \beta^\mathrm{T}x - \ln(1 + e^{\beta^\mathrm{T}x} = \ln e^{\beta^\mathrm{T}x} - \ln(1 + e^{\beta^\mathrm{T}x}) = \ln \frac{e^{\beta^\mathrm{T}x}}{1 + e^{\beta^\mathrm{T}x}} ) & ,\ y = 1 \\ -\ln(1 + e^{\beta^\mathrm{T}x} = \ln 1 - \ln(1 + e^{\beta^\mathrm{T}x}) = \ln \frac{1}{1 + e^{\beta^\mathrm{T}x}}) & ,\ y = 0 \end{cases}单样本对数似然项=⎩ ⎨ ⎧βTx−ln(1+eβTx=lneβTx−ln(1+eβTx)=ln1+eβTxeβTx)−ln(1+eβTx=ln1−ln(1+eβTx)=ln1+eβTx1), y=1, y=0

    观察两种情况的结果,可通过 y 来统一表示分子:

    • 当 y=1y=1y=1 时,分子为 eβTxe^{\beta^\mathrm{T}x}eβTx;
    • 当 y=0y=0y=0 时,分子为 1。

    因此,两种情况可统一写成: ln⁡y⋅eβTx+(1−y)⋅11+eβTx\ln \frac{y \cdot e^{\beta^\mathrm{T}x} + (1 - y) \cdot 1}{1 + e^{\beta^\mathrm{T}x}}ln1+eβTxy⋅eβTx+(1−y)⋅1

    进一步,利用指数运算的基本性质(如 e0=1e^0 = 1e0=1)和对数的倒数性质(ln⁡ab=−ln⁡ba\ln \frac{a}{b} = -\ln \frac{b}{a}lnba=−lnab ),还可以变成形式: ln⁡1+eβTxeyβTx\ln \frac{1 + e^{\beta^\mathrm{T}x}}{e^{y\beta^\mathrm{T}x}}lneyβTx1+eβTx

3-7、LDA 线性判别分析(Linear Discriminant Analysis)

核心思想:将样例投影到一条直线 (低维空间),使得同类样本的投影尽可能 "近"不同类样本的投影尽可能 "远"

LDA 目标:

给定数据集 (xi,yi)i=1m{(x_i, y_i)}_{i=1}^m(xi,yi)i=1m:

  • 第 iii 类示例的集合 XiX_iXi;
  • 第 iii 类示例的均值向量 μi\mu_iμi;
  • 第 iii 类示例的协方差矩阵 Σi\Sigma_iΣi;
  • 两类样本的中心在直线上的投影:wTμ0w^\mathrm{T}\mu_0wTμ0 和 wTμ1w^\mathrm{T}\mu_1wTμ1 ;
  • 两类样本的协方差:wTΣ0ww^\mathrm{T}\Sigma_0 wwTΣ0w 和 wTΣ1ww^\mathrm{T}\Sigma_1 wwTΣ1w。

LDA的核心目标是:

  • 同类样例的投影点尽可能接近 → wTΣ0w+wTΣ1ww^\mathrm{T}\Sigma_0 w + w^\mathrm{T}\Sigma_1 wwTΣ0w+wTΣ1w 尽可能小;
  • 异类样例的投影点尽可能远离 → ∥wTμ0−wTμ1∥22\|w^\mathrm{T}\mu_0 - w^\mathrm{T}\mu_1\|_2^2∥wTμ0−wTμ1∥22 尽可能大。

因此,需最大化目标函数:求解 www 使目标函数JJJ 最大

J=∥wTμ0−wTμ1∥22wTΣ0w+wTΣ1w=wT(μ0−μ1)(μ0−μ1)TwwT(Σ0+Σ1)w J = \frac{\|w^\mathrm{T}\mu_0 - w^\mathrm{T}\mu_1\|_2^2}{w^\mathrm{T}\Sigma_0 w + w^\mathrm{T}\Sigma_1 w} = \frac{w^\mathrm{T}(\mu_0 - \mu_1)(\mu_0 - \mu_1)^\mathrm{T} w}{w^\mathrm{T}(\Sigma_0 + \Sigma_1) w} J=wTΣ0w+wTΣ1w∥wTμ0−wTμ1∥22=wT(Σ0+Σ1)wwT(μ0−μ1)(μ0−μ1)Tw

LDA的散度矩阵定义:

  • 类内散度矩阵 (within-class scatter matrix)

    Sw=Σ0+Σ1=∑x∈X0(x−μ0)(x−μ0)T+∑x∈X1(x−μ1)(x−μ1)T \begin{align*} \mathbf{S}w &= \Sigma_0 + \Sigma_1 \\ &= \sum{x \in X_0} (x - \mu_0)(x - \mu_0)^\mathrm{T} + \sum_{x \in X_1} (x - \mu_1)(x - \mu_1)^\mathrm{T} \end{align*} Sw=Σ0+Σ1=x∈X0∑(x−μ0)(x−μ0)T+x∈X1∑(x−μ1)(x−μ1)T

  • 类间散度矩阵 (between-class scatter matrix)

    Sb=(μ0−μ1)(μ0−μ1)T \mathbf{S}_b = (\mu_0 - \mu_1)(\mu_0 - \mu_1)^\mathrm{T} Sb=(μ0−μ1)(μ0−μ1)T

  • LDA的目标:最大化广义瑞利商 (generalized Rayleigh quotient) 将目标函数用散度矩阵形式替换

    J=wTSbwwTSww J = \frac{w^\mathrm{T}\mathbf{S}_b w}{w^\mathrm{T}\mathbf{S}_w w} J=wTSwwwTSbw

最大化目标函数求解思路:
  • 令 wTSww=1\boldsymbol{w}^{\mathrm{T}}\mathbf{S}_w\boldsymbol{w} = 1wTSww=1,最大化广义瑞利商等价形式为:

    {min⁡w−wTSbws.t. wTSww=1 \begin{cases} \min\limits_{\boldsymbol{w}} -\boldsymbol{w}^{\mathrm{T}}\mathbf{S}_b\boldsymbol{w} \\ \text{s.t. } \boldsymbol{w}^{\mathrm{T}}\mathbf{S}_w\boldsymbol{w} = 1 \end{cases} {wmin−wTSbws.t. wTSww=1

  • 运用拉格朗日乘子法,有:Sbw=λSww\mathbf{S}_b\boldsymbol{w} = \lambda\mathbf{S}_w\boldsymbol{w}Sbw=λSww

  • 由 Sb\mathbf{S}_bSb 定义,有:Sbw=(μ0−μ1)(μ0−μ1)Tw\mathbf{S}_b\boldsymbol{w} = (\mu_0 - \mu_1)(\mu_0 - \mu_1)^{\mathrm{T}} \boldsymbol{w}Sbw=(μ0−μ1)(μ0−μ1)Tw

  • 注意到 (μ0−μ1)Tw(\mu_0 - \mu_1)^{\mathrm{T}}\boldsymbol{w}(μ0−μ1)Tw 是标量,令其等于 λ\lambdaλ,于是求解结果为: w=Sw−1(μ0−μ1)\boxed{\boldsymbol{w} = \mathbf{S}_w^{-1}(\mu_0 - \mu_1)}w=Sw−1(μ0−μ1) ,标量是大小,但是更加重要的是 " 方向 "

  • 实践中通常进行奇异值分解: Sw=UΣVT\mathbf{S}_w = \mathbf{U}{\Sigma}\mathbf{V}^{\mathrm{T}}Sw=UΣVT,然后:Sw−1=VΣ−1UT\mathbf{S}_w^{-1} = \mathbf{V}{\Sigma}^{-1}\mathbf{U}^{\mathrm{T}}Sw−1=VΣ−1UT

3-8、LDA推广

散度矩阵定义:

  • 全局散度矩阵:St=Sb+Sw=∑i=1m(xi−μ)(xi−μ)T\mathbf{S}_t = \mathbf{S}_b + \mathbf{S}w = \sum{i=1}^{m} (\boldsymbol{x}_i - {\mu})(\boldsymbol{x}_i - {\mu})^TSt=Sb+Sw=∑i=1m(xi−μ)(xi−μ)T

  • 类内散度矩阵:Sw=∑i=1NSwi\mathbf{S}w = \sum{i=1}^{N} \mathbf{S}{w_i}Sw=∑i=1NSwi,其中 Swi=∑x∈Xi(x−μi)(x−μi)T\mathbf{S}{w_i} = \sum_{\boldsymbol{x} \in X_i} (\boldsymbol{x} - {\mu}_i)(\boldsymbol{x} - {\mu}_i)^TSwi=∑x∈Xi(x−μi)(x−μi)T

  • 类间散度矩阵:Sb=St−Sw=∑i=1Nmi(μi−μ)(μi−μ)T\mathbf{S}_b = \mathbf{S}_t - \mathbf{S}w = \sum{i=1}^{N} m_i ({\mu}_i - {\mu})({\mu}_i - {\mu})^TSb=St−Sw=∑i=1Nmi(μi−μ)(μi−μ)T

    ++多分类LDA有多种实现方法:采用++ ++Sb、St、Sw{S}_b、{S}_t、{S}_wSb、St、Sw++ ++中的任何两个++

  • 多分类LDA优化问题及推导:tr()表示矩阵的 " 迹 ":方阵 A\mathbf{A}A,它的迹定义为主对角线(从左上角到右下角的对角线)上所有元素的和

    max⁡Wtr(WTSbW)tr(WTSwW)  ⟹  SbW=λSwW \max_{\mathbf{W}} \frac{\mathrm{tr}\left( \mathbf{W}^{\mathrm{T}}\mathbf{S}_b\mathbf{W} \right)}{\mathrm{tr}\left( \mathbf{W}^{\mathrm{T}}\mathbf{S}_w\mathbf{W} \right)} \implies \mathbf{S}_b\mathbf{W} = \lambda\mathbf{S}_w\mathbf{W} Wmaxtr(WTSwW)tr(WTSbW)⟹SbW=λSwW

  • 广义特征值方程 SbW=λSwW\mathbf{S}_b\mathbf{W} = \lambda \mathbf{S}_w\mathbf{W}SbW=λSwW 可变形为 (Sw−1Sb)W=λW=(Sw−1Sb−λ)W(\mathbf{S}_w^{-1}\mathbf{S}_b)\mathbf{W} = \lambda \mathbf{W} = (\mathbf{S}_w^{-1}\mathbf{S}_b - \lambda )\mathbf{W}(Sw−1Sb)W=λW=(Sw−1Sb−λ)W ,即 λ\lambdaλ 是 Sw−1Sb\mathbf{S}_w^{-1}\mathbf{S}_bSw−1Sb 的特征值, W\mathbf{W}W 的列向量是其特征向量。

    其中 W∈Rd×(N−1)\mathbf{W} \in \mathbb{R}^{d \times (N-1)}W∈Rd×(N−1),W\mathbf{W}W 的闭式解是 Sw−1Sb\mathbf{S}_w^{-1}\mathbf{S}_bSw−1Sb 的 d′d'd′(d′≤N−1d' \leq N-1d′≤N−1)个最大非零广义特征值对应的特征向量组成的矩阵。

    闭式解(Closed-form Solution) 指的是可以通过有限次基本数学运算(如加、减、乘、除、幂、指数、对数、三角函数等) 直接表达出来的解析解。)

3-9、多分类学习基本思路

拆解法:将一个多分类任务拆分为若干个二分类任务求解

OvO(One vs. One)
  • 训练(N(N-1)/2)个分类器,存储开销和测试时间大

  • 训练只用两个类的样例,训练时间短

  • 示例(以4类(C1,C2,C3,C4)(C_1,C_2,C_3,C_4)(C1,C2,C3,C4)为例):

    • ((C1,C2)⇒f1→C1)((C_1, C_2) \Rightarrow f_1 \to C_1)((C1,C2)⇒f1→C1)
    • ((C1,C3)⇒f2→C3)((C_1, C_3) \Rightarrow f_2 \to C_3)((C1,C3)⇒f2→C3)
    • ((C1,C4)⇒f3→C1)((C_1, C_4) \Rightarrow f_3 \to C_1)((C1,C4)⇒f3→C1)
    • ((C2,C3)⇒f4→C3)((C_2, C_3) \Rightarrow f_4 \to C_3)((C2,C3)⇒f4→C3)
    • ((C2,C4)⇒f5→C2)((C_2, C_4) \Rightarrow f_5 \to C_2)((C2,C4)⇒f5→C2)
    • ((C3,C4)⇒f6→C3)((C_3, C_4) \Rightarrow f_6 \to C_3)((C3,C4)⇒f6→C3)
    • 最终结果:通过多个二分类器的投票(如上述示例最终结果为(C3))(C_3))(C3))
OvR(One vs. Rest)
  • 训练(N)个分类器,存储开销和测试时间小

  • 训练用到全部训练样例,训练时间长

  • 示例(以4类(C1,C2,C3,C4)(C_1,C_2,C_3,C_4)(C1,C2,C3,C4)为例):

    • ((C1,C2∪C3∪C4)⇒f1→"−")((C_1, C_2\cup C_3\cup C_4) \Rightarrow f_1 \to "-" )((C1,C2∪C3∪C4)⇒f1→"−")
    • ((C2,C1∪C3∪C4)⇒f2→"−")((C_2, C_1\cup C_3\cup C_4) \Rightarrow f_2 \to "-" )((C2,C1∪C3∪C4)⇒f2→"−")
    • ((C3,C1∪C2∪C4)⇒f3→"+ ")((C_3, C_1\cup C_2\cup C_4) \Rightarrow f_3 \to "+\ " )((C3,C1∪C2∪C4)⇒f3→"+ ")
    • ((C4,C1∪C2∪C3)⇒f4→"−")((C_4, C_1\cup C_2\cup C_3) \Rightarrow f_4 \to "-" )((C4,C1∪C2∪C3)⇒f4→"−")
    • 最终结果:选择输出"(+)"的分类器对应的类别(如上述示例最终结果为(C3))(C_3))(C3))
性能对比

预测性能取决于具体数据分布,多数情况下两者差不多

3-10、类别不平衡问题衡 (class--imbalance)

不同类别的样本比例相差很大;"小类"往往更重要

基本思路
  • 原判定逻辑:若 (y1−y>1)(\frac{y}{1-y} > 1)(1−yy>1) 则 预测为正例. 此做法默认是取50%,就是大于0.5的部分
  • 类别不平衡下的判定逻辑:若 y1−y>m+m−\frac{y}{1-y} > \frac{m^+}{m^-}1−yy>m−m+ 则 预测为正例.
基本策略------"再缩放"(rescaling)

y′1−y′=y1−y×m−m+\frac{y'}{1 - y'} = \frac{y}{1 - y} \times \frac{m^-}{m^+}1−y′y′=1−yy×m+m− 然而,精确估计 m−/m+m^-/m^+m−/m+ 通常很困难!

常见类别不平衡学习方法
  • 过采样 (oversampling) 将类别数目少扩充
    例如:SMOTE
  • 欠采样 (undersampling) 将类别数目多的减少
    例如:EasyEnsemble
  • 阈值移动 (threshold--moving) 将0.5 移动

相关推荐
weixin_468466851 小时前
YOLOv11结构解析及源码复现
人工智能·深度学习·yolo·目标检测·计算机视觉·图像识别·yolov11
攻城狮7号1 小时前
京东AI数字人直播服务对商家免费开放:一场“免费午餐”的背后
人工智能·电商·ai数字人·京东直播服务
炫饭第一名1 小时前
前端玩转 AI 应用开发|SSE 协议与JS中的流式处理🌊
前端·人工智能·程序员
leo_2321 小时前
AI私教--SMP(软件制作平台)开发的第一个产品(小视频)
人工智能·smp(软件制作平台)·软件开发工具·应用系统
T___T1 小时前
通过 MCP 让 AI 读懂你的 Figma 设计稿
前端·人工智能
悟纤2 小时前
Suno 创作Rap音乐李白的《将进酒》,音乐风格音乐无所不能 | 从零开始用Suno Ai | 第5篇
人工智能·suno ai·suno api·ai music
小小工匠2 小时前
LLM - Google 5-Day AI Agents Intensive
人工智能·ai agents
雨大王5122 小时前
AI视觉检测怎么选?技术原理、行业应用与解决方案解析
人工智能·计算机视觉·视觉检测
ziwu2 小时前
【垃圾识别系统】Python+TensorFlow+Vue3+Django+人工智能+深度学习+卷积网络+resnet50算法
人工智能·深度学习·图像识别