【人工智能Ⅰ】8-回归 & 降维

8-1 模型评价指标

分类任务

准确率、精确率与召回率、F值、ROC-AUC、混淆矩阵、TPR与FPR

回归任务

MSE、MAE、RMSE

无监督任务（聚类）

兰德指数、互信息、轮廓系数

回归任务的评价指标

1：MSE均方误差

mean squared error

计算真实值与预测值的差值的平方和的均值
M S E = ( 1 / m ) ∗ ∑ i = 1 m ( f ( x i ) − y i ) 2 MSE = (1/m)*∑_{i=1}^m(f(x_i)-y_i)^2 MSE=(1/m)∗i=1∑m(f(xi)−yi)2

2：MAE平均绝对误差

mean absolute error

计算预测值与真实值之间的距离的绝对值的均值
M A E = ( 1 / N ) ∗ ∑ i = 1 N ∣ y i − f ( x i ) ∣ MAE=(1/N)*∑_{i=1}^N|y_i-f(x_i)| MAE=(1/N)∗i=1∑N∣yi−f(xi)∣

3：RMSE均方根误差

root mean squared error

计算预测值与真实值的均方根
R M S E = ( 1 / N ) ∗ ∑ i = 1 N ( y i − f ( x i ) ) 2 RMSE=\sqrt{(1/N)*∑_{i=1}^N(y_i-f(x_i))^2} RMSE=(1/N)∗i=1∑N(yi−f(xi))2

8-2 回归分析

数据变量间关系

1：确定性关系（函数关系）

确定现象非随机变量间的关系，例如圆面积的计算

2：统计依赖关系（相关关系）

非确定现象随机变量间的关系，例如农作物产量与气温、降水、阳光等因素有关

相关分析或回归分析 ，可考察变量间统计依赖关系

数据变量间的统计依赖关系

统计依赖关系

------线性相关（相关系数：-1<rho<1）

------------正相关

------------不相关

------------负相关

------非线性相关

------------正相关

------------不相关

------------负相关

统计依赖关系

------有因果关系（回归分析）

------无因果关系（相关分析）

8-3 线性回归

线性：函数自变量和因变量之间的对应关系在集合呈现直线、平面或超平面

回归：用一个直线、平面或超平面拟合真实世界的规律

一元线性回归

回归方程

a是截距，b是斜率
y = a + b x y=a+bx y=a+bx
R^2判定系数

判定一元线性回归直线的拟合程度

值越大，自变量对因变量的解释程度越高，观察点在回归直线附近越密集
0 < = R 2 < = 1 0<=R^2<=1 0<=R2<=1

多元线性回归

回归方程

b0是常数项，b1_{bn是y对应于x1}xn的偏回归系数
y = b 0 + b 1 x 1 + . . . b n x n y=b_0+b_1x_1+...b_nx_n y=b0+b1x1+...bnxn
Adjusted R^2

判定多元线性回归方程的拟合程度

逐步回归分析

最优回归方程：包含所有对y有影响的变量，而不包含对y影响不显著的变量

选择最优回归方程的方法

1：从所有可能的变量组合的回归方程中择优

2：从包含全部变量的回归方程中逐次剔除不显著因子

3：从一个变量开始，把变量逐个引入方程

4：有进有出的逐步回归分析

逐步回归分析法的思想

1：从一个自变量开始，按自变量作用的显著程度，从大到小依次逐个引入回归方程

2：若引入的某自变量由于后面变量的引入而不显著，则剔除

3：对每一步进行Y值检验，确保每次引入新的显著变量前回归方程中只包含对Y作用显著的变量

4：重复进行，直至既无不显著的变量剔除，又无显著变量引入

损失函数

显性的公式描述误差，并将误差优化到最小值

回归问题的常规步骤

1：寻找模型函数
h θ ( x ) = θ T X h_θ(x)=θ^TX hθ(x)=θTX

2：构造损失函数
J ( θ ) = 1 / 2 ∗ ∑ i = 1 m ( h θ ( x ( i ) ) − y ( i ) ) 2 J(θ)=1/2*∑_{i=1}^m(h_θ(x^{(i)})-y^{(i)})^2 J(θ)=1/2∗i=1∑m(hθ(x(i))−y(i))2

3：最小化损失函数并求回归参数

方法：最小二乘法、梯度下降法

8-4 最小二乘法线性回归

原理：目标拟合直线上各个相应点的值与测量值之差的平方和在所有拟合直线中最小
s = ∑ i = 1 n ϵ i 2 = ∑ i = 1 n $y i - ( a + b x i )$ 2 − > m i n s=∑{i=1}^n\epsilon_i^2=∑{i=1}^n $y_i-(a+bx_i)$ ^2->min s=i=1∑nϵi2=i=1∑n $yi-(a+bxi)$ 2−>min

使s最小的条件：s对a的一阶偏导=0，s对b的一阶偏导=0，s对a的二阶偏导>0，s对b的二阶偏导>0

a和b：
a = y ˉ − x ˉ a=\bar{y}-\bar{x} a=yˉ−xˉ

b = x y ‾ − x ‾ ∗ y ‾ x 2 ‾ − x ‾ 2 b=\frac{\overline{{xy}}-\overline{x}*\overline{y}}{\overline{x^2}-\overline{x}^2} b=x2−x2xy−x∗y

标准偏差：
σ a = 1 n ( x 2 ‾ − x ‾ 2 ) ∗ σ y \sigma_a=\sqrt{\frac{1}{n(\overline{x^2}-\overline{x}^2)}}*\sigma_y σa=n(x2−x2)1 ∗σy

σ b = x 2 ‾ n ( x 2 ‾ − x ‾ 2 ) ∗ σ y \sigma_b=\sqrt{\frac{\overline{x^2}}{n(\overline{x^2}-\overline{x}^2)}}*\sigma_y σb=n(x2−x2)x2 ∗σy

测量值 y i 的标准误差 σ y = Σ $y i - ( a + b x i )$ 2 n − 2 测量值y_i的标准误差\sigma_y=\sqrt{\frac{\Sigma $y_i-(a+bx_i)$ ^2}{n-2}} 测量值yi的标准误差σy=n−2Σ $yi-(a+bxi)$ 2

需要考虑的问题

1：经验公式是否合适（相关系数R）

|R|越接近1，线性关系越好

|R|越接近0，无线性关系，拟合无意义
R = x y ‾ − x ‾ ∗ y ‾ ( x 2 ‾ − x ‾ 2 ) ( y 2 ‾ − y ‾ 2 ) R=\frac{\overline{{xy}}-\overline{x}*\overline{y}} {\sqrt{(\overline{x^2}-\overline{x}^2)(\overline{y^2}-\overline{y}^2)}} R=(x2−x2)(y2−y2) xy−x∗y

2：测量列是否存在粗差（肖维涅舍弃判据）

肖维涅系数Cu（查表）
y ′ ′ = a + b x i + C u ⋅ σ y y^{''}=a+bx_i+Cu\cdot\sigma_y y′′=a+bxi+Cu⋅σy

y = a + b x i y=a+bx_i y=a+bxi

y ′ = a + b x i − C u ⋅ σ y y^{'}=a+bx_i-Cu\cdot\sigma_y y′=a+bxi−Cu⋅σy

最小二乘法优缺点

1：实验数据处理常用方法

2：最佳配方逼近可在一个区间上比较均匀的逼近函数，方法简单易行，实效性大，应用广泛

3：正规方程阶数较高时，容易出现病态

4：解决病态性，可引入正交多项式

8-5 逻辑回归

回归任务：变量连续

分类任务：变量离散

原理 ------替换回归的判别函数为sigmod
y = 1 1 + e − ( w T X + b ) y=\frac{1}{1+e^{-(w^TX+b)}} y=1+e−(wTX+b)1

S形曲线，在中心点附近的增长速度快，在两段的增长速度慢

逻辑回归解决的问题------二分类（大于等于0.5的为正样本，小于0.5的为负样本）

判别函数
F ( x ) = { 1 , Y ( x ) > = 0.5 0 , Y ( x ) < 0.5 F(x)=\begin{cases} 1,&Y(x)>=0.5\\ 0,&Y(x)<0.5 \end{cases} F(x)={1,0,Y(x)>=0.5Y(x)<0.5

关键：模型参数w和b的估计

代价函数：
c o s t ( Y ( x ) , y ) = { − l o g Y ( x ) , y = 1 − l o g ( 1 − Y ( x ) ) , y = 0 cost(Y(x),y)=\begin{cases} -logY(x),&y=1\\ -log(1-Y(x)),&y=0 \end{cases} cost(Y(x),y)={−logY(x),−log(1−Y(x)),y=1y=0

所有m个样本的代价累加并平均，可得最终的代价函数
c o s t = 1 m cos ⁡ ( Y ( x ) ⋅ y ) cost=\frac{1}{m}\cos(Y(x)\cdot y) cost=m1cos(Y(x)⋅y)

逻辑回归推导

1：梯度下降法，对代价函数求偏导，直至函数值收敛

2：设置合适的学习率，过小会迭代过慢，过大会错过最佳收敛点

8-6 降维

在降低数据集维度的同时，保证有效信息不要丢失

维度灾难：feature过多，导致过拟合

降维方法

1：特征选择（原来特征的子集）

2：特征抽取（原来的特征空间映射到新的特征空间）

主成分分析PCA

无监督学习的降维技术

主要思想：把原有的n维特征映射为k维的正交特征（即，主成分）

第一个新坐标轴的选择：原始数据中方差最大的方向

第二个新坐标轴的选择：与第一个坐标轴正交的平面中方差最大的

第三个新坐标轴的选择：与第一个和第二个坐标轴均正交的平面中方差最大的

（以此类推）

线性判别分析LDA

监督学习的降维技术（数据集的每个样本有类别输出）------与PCA的不同

主要思想：投影后类内方差最小，类间方差最大

LDA和PCA的区别

1：PCA从特征的协方差切入，寻找投影方式

2：LDA从类别标注切入，期望投影后不同类别之间的数据距离较大，同一类别的数据紧凑

LDA和PCA的异同点

同：

1：数据降维

2：降维时使用矩阵特征分解的思想

3：假设数据符合高斯分布

异：

1：LDA降维最多到类别数k-1的维数，PCA无限制

2：LDA可以用于分类

3：LDA选择分类性能最好 的投影方向，PCA选择样本点投影具有最大方差的方向