机器学习笔记(概念)

一.基础概念

1.机器学习的实质为：根据现有数据,寻找输入数据和输出数据的映射关系/函数

2.机器学习的任务：

回归：输出为连续值

分类：输出为离散值

聚类：无标记信息的输出(例如根据瓜的外观分为两部分)

3.回归任务：根据若干带有标注的样本数据构造一个预测模型f(x),使得f(x)尽可能符合真实值，f(x)称为回归模型。

4.分类任务：通过训练样本构造合适的分类器f(x)，完成分类。用于分类任务的模型成为分类模型或者叫分类器。

5.聚类任务：根据样本数据的某种相似性，实现物以类聚的效果。类别表达通常是不确定的。

6.机器学习分为监督学习：监督学习：有标记信息(分类、回归)，无监督信息：无标记信息(聚类、降维)，强化学习

7.有监督学习是自带样本标记调整模型参数，使告诉模型给定输入应该输出什么；

无监督学习是通过比较样本之间的某种联系实现数据分析；

强化学习是根据反馈信息来调整机器行为以实现自动决策的机器学习方式。

8.泛化能力：学到的模型适用新样本的能力。

9.对于具体的回归或者分类任务

所有的可能输入组成的集合称为输入空间；

所有可能的输出组成的集合成为输出空间；

回归或者分类的机器学习本质就是寻找一个从输入空间到输出空间的映射，并作为预测模型；

所有输入到输出空间的所有可能映射组成的集合称为假设空间。

10.模型偏好：学习过程中对某种类型的假设的偏好。

11.输出误差：模型的输出结果于真实值之间的差异。

损失函数：度量模型对于单个样本的输出误差。

12.泛化误差(期望风险)：模型在样本集合上的整体误差；

训练误差(经验风险)：训练样本的平均误差。

测试误差：模型在样本集上的整体误差。

13.过拟合：同时拟合训练样本的共性特征和各项特征；

欠拟合：韦恩充分你和训练样本的共性特征导致泛化性能较弱。

14模型的学习能力(模型的容量)：机器学习适应这种训练数据的变化的能力。

15.评估方法：

留出法：数据集划分为两个互斥集合，进里分布一致；重复若干次，取均值；训练/测试比例通常为2:1~4:1.

交叉验证法：分层采样划分为k个互斥子集，一个测试，k-1个训练。

自助法：对数据集D有放回采样m次，其余作为训练集(1/3).

16.性能度量：均方误差、错误率(分错样本所占比例)、精度(分对所占比例)、

查准率P(预测的正例中所占比例)，计算TP/(TP+FP)，预测为正例中有几个为真的正例、

查全率R(正例被预测的比率),计算TP/(TP+FN)，所有正例中，有几个被预测为正例、

PR曲线：X轴为查全率P，Y轴为查准率所绘制的曲线R、

F1度量：F1=2PR/(P+R)=2*TP/(样本总数+TP-TN)、

Fβ度量：更一般的F1。

ROC曲线：X轴为假正例率，Y轴为真正率例，谁面积大谁好。

二.感知机

1.背景

输入为实例的特征向量，输出为实例的类别，+、-1；
感知机对应将输入空间中将实例划分为正负两类的分类超平面；
导入基于误分类的损失函数；
利用梯度下降对损失函数进行极小化；
具有简单而易实现的优点；

2.模型

分类：训练数据和训练标签进行分类
建模：y = f(x;b)= wx+b
线性方程：WX+b=0

3.学习策略

经验最小化准则找出最好的W,b
利用学习/优化算法找到这个好的w和b(梯度下降法)

经验风险可定义为误分类点到超平面的总距离。

4.学习算法-梯度下降

w <-----w-ηΔw

影响因素：

特征缩放
学习率

5.学习能力

感知机算法存在许多解，既依赖于初值，也依赖于迭代过程中误分类点的选择顺序
线性不可分数据集，迭代震荡

6.感知机的问题

感知机的分类超平面不唯一：增加约束
无法解决非线性问题：使用核方法

三.支持向量机

1.概述

二分类模型
定义在特征空间的间隔最大的线性分类器，这也使它有别于感知机
包含核技巧，成为实质上的非线性分类器
学习策略就是间隔最大化，可形式化为一个求解凸二次规划的问题，也等价于正则化的合页损失函数的最小化问题。
学习算法就是求解凸二次规划的最优算法。

分类

支持向量机：硬间隔最大化
线性支持向量机：训练数据近似线性可分时，软间隔最大化
非线性支持向量机：训练数据线性不可分时，通过使用核技巧及软间隔最大化。

2.函数间隔

超平面方程：wx+b=0
x到超平面距离为|wx+b|
若符号于y符号一致，则分类正确，否则则分类错误
可用y(wx+b)代表样本点到超平面的距离
函数间隔：di=yi(wx+b)
函数间隔d定义为所有样本点间隔的最小值 d = mindi
d作为优化指标构造SVM模型

3.几何间隔

缺点：若同时同比例缩放其参数w和b，会改变间隔di的取值

为解决间隔di的取值混乱问题，对参数w进行归一化后取得的函数间隔
di^=di/||w||
可以对参数w进行归一化缩放的基础上对其做进一步适当缩放，使得d=1
优化后的最优超平面w*x+b=0，SVM模型为f(x)=sgn(wx+b)

4.软间隔

训练数据中有一些特异点，不能满足函数间隔大于等于1的约束条件，从而引入软间隔，即为允许支持向量机在一些样本上不满足约束。

线性SVM模型：

想法：最大化间隔的同时，让不满足约束的样本应该尽可能少
引入松弛变量ξ，将约束条件转化为：yi(wx+b)>=1-ξ，其中ξ越大，模型对错误分类的容忍度越高。

合页损失函数：L(y(wx+b))=[1-y(wx+b)]

非线性SVM和核函数：

线性不可分情况：将样本从原始空间映射到一个更高维的特征空间，使得在此维度线性可分。
核函数：将一个从低维映射到高维的内积用核函数代替即为低维计算，高维分类：k(x1,x2)=(<x1,x2>+1)^2

四：回归模型

1.线性回归

回归定义：通过带标签要样本训练构造模型并通过该模型算出新样本的预测值。

线性回归：基于线性模型的回归学习任务通常称之为线性回归，对应的模型称之为线性回归模型。

f(x) = w1x1+w2x2+w3x3+...+wmxm

模型求解

2.多重共线现象

多元线性回归模型：不同样本之间的属性标记值之间不存在线性关系
多重共线现象：当矩阵X的行向量存在一定的线性相关时，就会使得矩阵X^T X不可逆
岭回归：为了解决多重共线问题，对线性回归参数的求解方法进行改进。

岭回归：在线性回归模型损失函数上增加一个针对w的范数惩罚函数，通过对目标做正则化处理，通过约束w，将其压缩到一个相对较小的范围。

岭回归的损失函数

J(W) = ||Xw - y||^2+λ||w||2 λ>=0

当λ较大时，惩罚项就会对损失函数的最小化进行干扰，优化算法就会对回归模型参数w赋予较小的值以消除干扰。

3.逻辑回归

二分类任务

--预测值于输出表及

z = Wx+b y∈{0,1}

替代函数---逻辑函数

模型结构：

预测值作为分类的可能性：

损失函数：

--对数损失(交叉熵损失)：

--经验风险：

学习算法：梯度下降法

初始化w ,b
按下式更新w ,b:
检查是否收敛，如果不收敛转2

4.Softmax回归

--样本x 属于第j 类(y =j)的概率：

对数损失：

经验风险：

结构风险：加入控制模型复杂度的正则化项

五.神经网络和深度学习

深度学习：对于大多数神经网络模型来说，根本目的在于适应某个任务的映射函数。

浅层学习：随着网络层的加深，网络模型会变得难以收敛且计算量巨大，故需要强大拟合能力的浅层网络是一段时间的研究对象。

对于模型来说，增加网络的隐函层层数比直接增加某一隐含层的节点数目更能提高模型的拟合能力。

1.人工神经元

激活函数：作用是对神经元增加非线性，将输出范围限制在[0,1]或[-1,1]。例如

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

阈值逻辑单元 wxi的和大于某个数，则y1

感知机：f = f(x;w,b)=1 wx+b>0

逻辑回归：z = wx+b = a(z)

2.神经网络

感知机的学习能力：若两类模式线性可分，则感知机的学习一定收敛，否则将会震荡。

多层感知机：

--通常将没用环路或回路的人工神经网络称为前馈网络模型

--在感知机模型的基础之上添加隐藏层，通常将此模型称之为多层感知机模型MLP

--MLP的隐含层可将数据通过非线性映射表示再另一个空间当中

--隐含层为一层的神经网络称为单隐层神经网络

--通过多层的函数复合可以把原线性不可分的数据映射成线性可分

3.反向传播算法

经验风险最小化

反向传播算法求解：

h1 = 0.6502,h2=0.6726,y1=0.8166,y2=0.7363

梯度计算

4.问题分析

梯度消失问题：

--随着网络层数加深，模型易出现网络性能退化、容易陷入局部最优等问题

--所谓退化，是指模型再训练集和测试集上所表现的性能随着网络层数加深而降低的现象。

--退化的直接原因是训练过程中产生的梯度消失现象

--若出现梯度消失，则参数更新均无法有效改变模型前几层的参数

--出现的原因是传统模型采用的Sigmoid激活函数或tanh激活函数，这些激活函数的梯度在任何情况下均小于1，故梯度会在训练过程中逐层衰减并最终接近0.

梯度消失应对策略：

--改进激活函数，如ReLU、Leaky ReLU

--中间层引入损失函数，如GoogLeNet

--残差连接，如ResNet

局部最优问题：

--模型极易陷入局部最优，原因是模型的目标函数过于复杂

--过于复杂的函数，难免会在多个fang'xiafangxia那个取梯度均为0的非最优点

改进策略：

--改进初始化方式，如DAE、DBN

--随机梯度下降，跳出局部极值

--设置冲量，加速优化

--预训练(无监督):大量的无标签数据集进行逐层预训练

--微调(有监督)：少量的有标签数据进行BP微调

5.卷积神经网络

全连接前馈神经网络：

--权重矩阵参数非常多

--局部不变性特征(旋转、缩放)，此网络很难提取这些特征

卷积神经网络：

特性：局部连接、权重共享、空间或时间上的下采样

六.贝叶斯分类器

1.概率基础

--事件A和B发生的概率：P(A)和P(B)

--B已发生条件下A发生的概率：P(A|B)

--贝叶斯公式：根据条件概率的定义和性质，即为：P(B│A)=(P(B)P(A|B))/(P(A))

2.贝叶斯决策论

--概率框架下实施决策的基本方法

--考虑的是如何基于所有相关已知的概率和误判损失来选择最优的类别标记

--假设有N 种可能的类别标记,即

，λij是将一个真实标记为Cj的样本误分类为Ci所产生的损失。基于后验概率P{Ci|x}可获得样本x分类为Ci所产生的期望损失，即为在样本上的条件风险。

--贝叶斯判定准则：为最小化总体风险，只需在每个让本上选择哪个能使条件风险R(c|x)最小的类别标记，即为h(x) = argminR(c|x)，此时被称为贝叶斯最优分类器，与之对应的总体风险称为贝叶斯风险。

--1-R(h)反映了分类所能达到的最好性能，即通过技巧学习所能产生的模型精度的理论上限。

实施决策的基本方法：

首先获得后验概率P(c|x)
判别策略

--判别式模型：给定x，通过直接建模P(c|x)来预测；决策树、BP神经网络、支持向量机

--生成式模型：先对联合概率分布建模，再由此获得P(c|x)=P(x,c)/p(x)=P©P(x|c)/p(x)

3.极大似然估计

令Dc表示训练集中第c 类样本的组合的集合，假设这些样本是独立的，则参数

对于数据集Dc的似然是

--直观上看极大似然估计就是试图在所有可能的取值中，找到一个使数据出现的"可能性"最大值。

--连乘易造成下溢，通常使用对数似然

--此时的极大似然估计为：

4.朴素贝叶斯分类

估计后验概率主要的困难：类条件概率是所有属性上的联合概率难以从有限的训练样本估计获得

朴素贝叶斯分类器采用了属性条件独立性假设：每个属性独立的对分类结果产生影响。

--基于独立性假设，其中d 为属性数目，xi为x在第i个属性上的取值

--由于对所有类别来说P(x)相同，因此贝叶斯判定准则有

这就是朴素贝叶斯分类器的表达式

朴素贝叶斯分类器的训练器的训练过程就是基于训练集D估计类先验概率P©并为每个属性估计条件概率

--先验概率：P© =|Dc|/D

--离散属性：P(xi|c) = |Dc,xi|/D

--连续属性：

例子：用西瓜数据集3.0训练一个朴素贝叶斯分类器，对测试例"测1"进行分类

估计类先验概率

P(好瓜=是)=8/17=0.471

P(好瓜=否)=9/17=0.529

为每个离散属性估计条件概率

P(色泽=青绿|好瓜=是)=3/8=0.375 P(色泽=青绿|好瓜=否)=3/9=0.333

P(根蒂=蜷缩|好瓜=是)=5/8=0.625 P(根蒂=蜷缩|好瓜=否)=3/9=0.333

P(敲声=浊响|好瓜=是)=6/8=0.750 P(敲声=浊响|好瓜=否)=4/9=0.444

P(纹理=清晰|好瓜=是)=7/8=0.875 P(纹理=清晰|好瓜=否)=2/9=0.222

P(脐部=凹陷|好瓜=是)=5/8=0.625 P(脐部=凹陷|好瓜=否)=2/9=0.222

P(触感=硬滑|好瓜=是)=6/8=0.750 P(触感=硬滑|好瓜=否)=6/9=0.667

为每个连续属性估计条件概率

p(密度=0.697|好瓜=是)=1/(√2π×0.129) exp⁡((0.697-0.574)2/(2×0.1292))=1.959

p(密度=0.697|好瓜=否)=1/(√2π×0.195) exp⁡((0.697-0.496)2/(2×0.1952))=1.203

p(含糖量=0.460|好瓜=是)=1/(√2π×0.101) exp⁡((0.460-0.279)2/(2×0.1012))=0.788

p(含糖量=0.460|好瓜=否)=1/(√2π×0.108) exp⁡((0.460-0.154)2/(2×0.1082))=0.066

计算联合概率，判断结果

因此，测1被判断成为好瓜

当测试属性在训练数据中未出现时，常用拉普拉斯进行修正：

令N 表示训练集D 中可能的类别数，表示第i个属性可能的取值数，则概率公式修正为

5.半朴素贝叶斯分类

策略：独依赖估计：假设每个属性在类别之外最多仅依赖一个其他属性即为：

其中pai 为属性xi所依赖的属性，称为xi的父属性

SPODE--最直接的方法就是所有属性依赖于同一属性，称为超父，然后通过交叉验证等模型选择方法确定超父属性

TAN(最大带权生成树)：以属性为结点构建完全图，任意两个结点之间边的权重设为I，构建完全图的最大带权生成树，挑选根变量，将边设为有向；加入类别节点y，增加从y到每个属性的有向边。

AODE--集成学习机制、更为强大的分类器。

6.EM算法

隐变量：未估计的变量，或者无法观测的变量。

EM算法与初值的选择有关

七：决策树

1.归纳学习

--归纳是从特殊到一般的过程

--归纳推理从若干个事实中表征出的特征、特性和属性中，通过比较、总结、概括而得出一个规律性的结论

--归纳推理试图从对象的一部分或整体的特定的观察中获得一个完备且正确的描述。即从特殊事实到普遍性规律的结论

--归纳对于认识的发展和完善具有重要的意义。人类知识的增长主要来源于归纳学习

2.模型结构

-基本思想：模拟人类进行级联选择或决策，按照属性的优先级进行全部属性进行判别，从而得到输入数据所对应的预测输出。

-模型结构：一个根节点、若干内部节点、叶节点

中叶节点表示决策结果

内部节点表四对样本某一属性的判别

-测试序列：从根节点到某一叶子结点的路径

3.学习算法

构造决策树的关键：如何选择最优化分属性。合理选择内部结点所对应的样本属性，使得结点所对应样本子集中的样本尽可能多的属于同一类别，即具有尽可能高的纯度。

ID3算法：信息熵是度量样本集合纯度最常用的一种指标。

假定当前样本集合D中第k类样本所占的比为pk，则

Ent(D)值越小，D的纯度雪糕

--计算信息熵约定：若p = 0，则plog2p = 0

--最小值未0最大值未log2|y|

信息增益 ：离散属性a 有V 个可能的取值

，用a 来进行划分，则会产生V 个分支结点，其中第v 个分支结点包含了D 中所有在属性a 上取值为a^{v*的样本，记为*D}v 。则可计算出用属性a 对样本集D 进行划分所获得的"信息增益":

一般而言，信息增益越大，则意味着使用属性a来进行划分所获得的"纯度提升"越大
ID3决策树学习算法以信息增益为准则来选择划分属性

计算信息增益：

C4.5算法

--增益率对可取值数目较少的属性有所偏好

--先从候选划分属性中找出信息增益高于平均水平的属性，再从中选取增益率最高的。

CART算法：既可用于分类也可用于回归

剪枝处理

"剪枝"是决策树学习算法对付"过拟合"的主要手段

基本策略：预剪枝、预剪枝

判断决策树泛化性能是否提升的方法：留出发，预留一部分数据用作"验证集"进行性能评估

决策树生成过程中，对每个结点在划分前先进行估计，若当前结点的划分不能带来决策树泛化性能提升，则停止划分并将当前结点记为叶结点，其类别标记为训练样例数最多的类别

针对上述数据集，基于信息增益准则，选取属性"脐部"划分训练集。分别计算划分前（即直接将该结点作为叶结点）及划分后的验证集精度，判断是否需要划分。若划分后能提高验证集精度，则划分，对划分后的属性，执行同样判断；否则，不划分

预剪枝优点：

降低过拟合风险
显著减少训练时间和测试时间的开销

缺点：

欠拟合风险，有些分支虽不能提升泛化性能，但是在此基础上后续划分却有可能导致性能显著提高

后剪枝：先从训练集生成一颗完整的决策树，然后自底向上对非叶节点进行考察，若该结点对应的子树替换为叶结点可以带来决策树泛化性能提升，则替换。

后剪枝优点：

--后剪枝比预剪枝保留了更多的分支，欠拟合风险小，泛化性能往往由于预剪枝决策树

缺点

--训练时间开销大：后剪枝是再生成完全决策树后进行的，需要自底向上对所有非叶节点逐一考察。

特殊属性处理

连续值离散化：将区间的中位点作为候选划分点

缺失值：取信息增益最大的分类进行划分

多变量决策树

八.集成学习

1.概念：

将多个性能一般的普通模型进行有效集成，形成一个性能优良的集成模型。

--普通模型称为个体学习器

--如果学习器全部是同类模型，则集成模型称为同质集成模型，学习器称为基学习器

--不同类型的个体学习器组成的集成模型称为异质集成模型

--学习问题能被高精度地学习，称为强学习问题；个体学习器称为强学习器。

--反之则为弱学习问题和弱学习器

--当直接构造强学习器比较困难时，可将强可学习问题转化为弱可学习问题

2.集成学习基本范式

步骤：先根据数据集构造弱学习器；对弱学习器进行组合得到集成模型

-构造弱学习器

对于样本数据集D，进行随机采样生成多个具有一定差异的样本集D1,D2......Dm
分别通过训练寻北极产生若干具有一定差异的弱学习器L1,L2,L3...Lm
并行执行弱学习器
也可串联进行构造弱学习器，使得学习器之间存在一定的关联
对于输出空间为实数域的回归任务，通常使用平均法进行组合
对于输出空间离散的分类任务，通常使用投票法进行组合
对于投票法可要求最底得票数不低于弱分类器数目m的一半，否则拒绝输出预测结果
对于重要性不同的弱分类器，可通过带加权计算的投票方法进行组合

集成学习泛化策略

目标：获得较好泛化性能的机器学习模型

降低学习器的泛化误差：样本扩充、范数惩罚等正则化策略

提高个体学习器的多样性：样本数据扰动、输入属性扰动、输出表示扰动、算法参数扰动

多样性度量：

不合度量：d = (b+c)/m
相关系数：p = (ad - bc)/根号(a+b)(a+c)(c+d)(b+d)
Q-统计量：Q = (ad-bc)/(ad+bc)
K-统计量：k = (p1-p2)/1-p2 p1 = (a+d)/m,p2=((a+b)(a+c)+(c+d)(b+d))/m^2

多样性增强(数据样本扰动)：

通常基于采样法：--Bagging中的自助采样法、--Adaboost中的序列采样
敏感的基学习器：--决策树，神经网络等
不敏感的基学习器：--线性学习器，支持向量机，朴素贝叶斯，k近邻等

3.Bagging集成策略

自助采样法：n次有放回的随机采样

可以生成多个具有一定差异的训练子集，

一般通过简单平均法集成多个弱回归器；相对多数投票法集成多个弱分类器

特点：

时间复杂度低，为O(m)+O(s)
O(s)很小且T是一个不大的常数
训练一个bagging集成与直接使用基学习器的复杂度同阶
可使用包外估计：仅考虑未使用的样本x训练的基学习器在x上的预测

Bagging产生的集成模型并未改善对弱回归器的预测偏差，但是可以有效降低模型输出预测的方差

4.随机森林

--决策树是一类简单有效的常用监督学习模型

--Bagging集成学习方法将多个决策树模型，构建一个较强泛化性能的森林模型作为强学习器

--由这些决策树作为弱学习器组成的森林模型作为随机森林模型，简称随机森林

--在Bagging集成策略基础上进一步增加了弱学习器之间的差异性

5.Boosting集成策略

--集成各个弱学习器的成功经验和失败教训实现对模型性能的提升

--使用迭代方式完成对各个弱学习器的训练构造

--使用前面格伦学习结果更新当前训练样本的权重，实现数据分布的优化

使用两种方法调整训练样本集合的数据分布：

仅调整样本数据的权重，而不改变当前训练样本的集合
该百年当前训练样本的集合，将前面错的样本复制到当前弱学习器重新训练

第一种方法的思想是提高强调训练样本集合中被错误预测的权重，降低已被苯炔预测样本的权重，使得后续学习更加重视错误预测的样本。

第二种方法是构建三个互补的弱分类器并由投票法将其称为一个具有较强分类性能的强分类器

6.Adaboost学习算法(自适应)

自适应性主要表现在自动提升被错误预测样本的权重，自动减少被正确预测样本的权重，使得弱学习器训练过程能够根据模型预测性能自动进行调整。

算法过程：

--关键是如何更新权重

--当某个样本被前一个弱学习器错误预测时，该样本权重会被放大

倍，以便在后续弱学习器构造过程得到应有的重视

--不改变训练数据，不断改变训练数据权值的分布，使得训练数据在基学习器中起不同的作用。

九.聚类

1.聚类任务

目标：将数据集中的样本划分为若干个通常不相交的子集(簇)

聚类既可以作为一个单独过程，也可作为分类等其他学习任务的前驱过程

2.性能度量

聚类性能度量：

--外部指标：将聚类结果与某个"参考模型"进行比较

--内部指标：直接考察聚类结果而不用参考模型

3.距离计算

距离度量的性质

--非负性：dist>0

--统一性: dist (xi,xj) = 0当且仅当xi=xj

--对称性: dist (xi,xj)=dist(xj,xi)

--直递性：dist(xi,xj)<=dist(xi,xk)+dist(xk,xj)

4.常用距离

连续属性：定义域上有无穷的可能取值

离散属性：有限个取值

有序属性：例如定义域为{1,2,3}的离散属性，"1"与"2"比较接近、与"3"比较远，称为"有序属性"

无序属性：无相关属性

5.原型聚类

此类算法是假设聚类结构能通过一组原型刻画

算法过程：先对原型进行初始化，再对原型进行迭代更新求解

著名算法：k均值算法、模糊c均值算法、学习向量量化算法、高斯混合聚类算法

k均值算法：

思想：同类样本再特征空间应该相距不远，
方法：将几种再特征空间某一区域的样本划分为同一个簇
区域位置由样本特征均值决定
通常用欧式距离(2范数)或曼哈顿距离(1范数)表示样本之间的距离

模糊c均值算法

思想：使用模糊数学中属于[0,1]区间的隶属度指标度量单个样本隶属于各个簇的程度
规定每个样本到所有簇的隶属度之和均为1，若某个样本到某个簇的隶属度为1，则完全隶属于该簇
使用加权欧式距离计算所有簇内夹权距离

学习向量量化算法LVQ

LVQ带有类别标记，学习过程中利用样本的这些监督信息来辅助聚类

给定样本集，LVQ的目标是学得一组n维原型向量，每个原型向量代表一个簇

层数聚类

思想：试图在不用层次对数据集进行划分，从而进行树形的聚类结构

数据集划分既可采用"自底向上"的聚合策略，也可采用"自顶向下"的分拆策略

代表性算法：AGNES算法（自底向上的层次聚类算法

AGNES算法

首先，将样本中的每一个样本看做一个初始聚类簇，然后在算法运行的每一步中找出距离最近的两个聚类簇进行合并，该过程不断重复，直到达到预设的聚类簇的个数。

十.降维

1.低维嵌入

在高维情形下出现的数据样本稀疏、距离计算困难等问题，是所有机器学习方法共同面临的严重障碍，被称为"维数灾难"

缓解维数灾难的一个重要途径是降维，即通过某种数学变换，将原始高维属性空间转变为一个低维"子空间" ，在这个子空间中样本密度大幅度提高，距离计算也变得更为容易

数据样本虽然是高维的，但与学习任务密切相关的也许仅是某个低维分布，即高维空间中的一个低维"嵌入" ，因而可以对数据进行有效的降维

2.多维缩放

若要求原始空间中样本之间的距离在低维空间中得以保持，即得到"多维缩放"

3.流形学习

流形学习是一类借鉴了拓扑流形概念的降维方法。"流形"是在局部与欧氏空间同胚的空间，换言之，它在局部具有欧氏空间的性质，能用欧氏距离来进行距离计算

4.主成分分析

主成分分析是一种常用的无监督学习方法

--PCA方法简称为主分量分析法、主成分分析法或PCA方法，在多元统计分析或经济统计分析领域，亦通常将其称之为因子载荷分析或因子分析

--这一方法利用正交变换把由线性相关变量表示的观测数据转换为少数几个由线性无关变量表示的数据，线性无关的变量称为主成分

--主成分的个数通常小于原始变量的个数，所以主成分分析属于降维方法

--主成分分析主要用于发现数据中的基本结构，即数据中变量之间的关系

5.特征选择

特征：描述物体的属性

特征的分类

--相关特征: 对当前学习任务有用的属性

--无关特征: 与当前学习任务无关的属性

--冗余特征: 其所包含信息能由其他特征推演出来（为简化讨论，暂不讨论冗余特征）

特征选择：

--从给定的特征集合中选出任务相关的特征子集

--必须确保不丢失重要特征

必要性：

--减轻维度灾难：在少量属性上构建模型

--降低学习难度：留下关键信息

特征选择的一般方法

--遍历所有可能的子集（计算上遭遇组合爆炸，不可行）

--可行方法：产生候选子集、评价，基于评价选择下一个候选子集

子集搜索：贪心

前向、后向、双向

十一：稀疏学习

1.稀疏编码概述

稀疏表示优势：数据线性可分、存储高效

稀疏性：向量或矩阵等数据的稀疏性，是指该数据大部分的分量值为0，只有很少的分量值不为0

稀疏编码：将原始非稀疏数据转化为高维的稀疏数据进行处理，从数学上看，稀疏编码的目的是寻找一组适当的基向量将非稠密的原始样本数据映射成具有一定稀疏性的数据

对于任意m维样本数据X_i=〖(x_i1,x_i2,...,x_im)〗^T，可将其表示为如下线性组合：

稀疏编码的目的是寻找到一组适当的基向量w_1,w_2,...,w_k，使得样本数据在这组基向量的表示下大部分系数为0，使得这种数据表示具有一定的稀疏性

--寻找一组适当的基向量w_1,w_2,...,w_k将D中所有样本数据表示成这组基向量的线性组合形式

--尽量使得大部分线性组合系数为0

2.稀疏表示学习

在字典矩阵确定的情况下，如何求解满足一定稀疏条件的系数矩阵？这个问题求解过程称之为稀疏表示学习

十二：强化学习

强化学习基本知识

--强化学习主要通过不断获取外部环境反馈信息的方式实现对连续多步自动决策问题的优化求解

--所要解决的问题形式和所涉及的基本概念与前述监督学习和无监督学习方式都有着较大差异

--强化学习的具体过程主要是智能体与其外部环境之间进行不断地动态交互过程

--通常采用马尔可夫模型表示这种动态交互过程并通过策略迭代、值迭代和策略搜索等方式进行优化计算，获得最优的连续性多步决策

特点：

--强化学习主要通过学习先验知识寻找最优决策过程

--强化学习使用的经验数据或先验知识则较为模糊，通常是由智能体所处环境提供的某种反馈信息

构成

--强化学习系统主要包括智能体、动作、系统环境、状态、奖励或反馈这五个基本要素

--智能体是行为的执行者，如浇水者

--动作是智能体发出的行为，如浇水、不浇水

--系统环境是智能体所处的外部环境，也是智能体的交互对象，如西瓜生长环境

--状态是智能体当前所处的可观察状态，如缺水、溢水、健康

--奖励或反馈是系统环境能够对智能体的行为做出的某种合理评价，如浇水动作导致溢水则给予负的反馈，不浇水动作导致健康则给予正的反馈

--强化学习的目标是使得智能体的动作满足某一任务需求

通过能否建立环境模型，将强化学习划分为两种：有模型强化学习和无模型强化学习

--有模型强化学习：强化学习通过建立环境模型来对智能体和系统环境进行模拟，并且系统环境满足已知且有限

--不能或难以建立环境模型的强化学习称为无模型强化学习

强化学习在解决序贯决策挑战

--收敛速度慢

--探索未知和利用已知的平衡

_2,...,w_k将D中所有样本数据表示成这组基向量的线性组合形式