机器学习总结

1线性回归，最小二乘（高数角度），正规方程组（线性代数角度），贝叶斯（概率角度）

初始化假设h(theta)=theta0+theta1*x，(这里以单变量为例),利用梯度下降法进行权值的更新。

中J(theta0,theta1)就是损失函数，即(1/2m)*(h(theta)-y)^2。A代表机器学其习率，梯度下降算法中另一关键点就是机器学习率的设计：设计准则是保证每一步迭代后都保证能使cost function下降，a过小会导致J(theta)收敛过慢，a过大，则会导致J(theta)跨步较大，可能会得到相反的结果，随着迭代次数的增加，J(theta)越跳越大，造成无法收敛。

与gradient descent平行的一种方法为Normal Equation,它采用线性代数中非迭代的方法

对于有m个样本，每个拥有n个feature的一个训练集，有X是m×(n+1)的矩阵，XTX是(n+1)×(n+1)的方阵，那么对于参数θ的计算就出现了一个问题，如果|XTX|=0,即XTX不可求逆矩阵怎么办？这时可以进行冗余feature的删除（m<=n的情况，feature过多）。其实这里是利用行列式中任意两行相同，该行列式为0，所以feature中可能有冗余，进而来删除冗余，以达效果。

2逻辑回归与过拟合的解决。

所谓one-vs-all method就是将binary分类的方法应用到多类分类中。比如我想分成K类，那么就将其中一类作为positive，另（k-1）合起来作为negative，这样进行K个h(θ)的参数优化，每次得到的一个hθ(x)是指给定θ和x，它属于positive的类的概率。

线性回归和logistic回归都有过拟合的问题，解决方案一般有两种：1减少feature的数量，2添加normal regularization.

问题，最小二乘，logistic，梯度下降之间的关系，以及所处的位置（即功能）

最小二乘法和Logistic回归的目标函数，可使用不同的概率分布，在极大似然估计的框架下导出------分别是高斯分布和二项分布；因此，它们同属于（广义）线性模型。梯度下降是具体的数值计算手段；并且，这两个目标函数的二阶导Hessian矩阵正（负）定，全局最优一定是局部最优解

3神经网络

引入神经网络的目的，其实就是为了解决多个特征，多个样本的问题，多个样本，比如下图中这个例子：从100*100个pixels中选出所有XiXj作为logistic regression的一个参数，那么总共就有5*10^7个feature，即x有这么多维。

向前传递

Backpropagationalgorithm其实是误差反向传播，定义神经网络的总误差为：

希望通过调整权重参数（theta）来最小化E，每层按照如下方式进行更新

根据backpropagation算法进行梯度的计算，这里引入了error变量δ，该残差表明了该节点对最终输出值的残差产生了多少影响。对于最后一层，我们可以直接算出网络产生的输出与实际值之间的差距，我们将这个差距定义为。对于隐藏单元我们如何处理呢？我们将通过计算各层节点残差的加权平均值计算hidden layer的残差。在最后一层中，

对于前面的每一层，都有

4深度学习

1、有监督学习和无监督学习

有监督学习：最常见的是分类和回归

regression：Y是实数vector。回归问题，就是拟合(X，Y)的一条曲线，使得cost function L最小。

2、无监督学习：无监督学习的目的是学习一个function f使它可以描述给定数据的位置分布P(Z)。包括两种：density estimation & clustering.densityestimation就是密度估计，估计该数据在任意位置的分布密度。clustering就是聚类，将Z聚集几类，或者给出一个样本属于每一类的概率。由于不需要事先根据训练数据去train聚类器，故属于无监督学习。

深度学习核心思想：

把learning hierarchy 看做一个network，则

①无监督学习用于每一层网络的pre-train；

②每次用无监督学习只训练一层，将其训练结果作为其higher一层的输入；

③用监督学习去调整所有层

深度神经网络的一大特点就是含有多隐含层

CNN（深度卷积网络）和DBN（深度置信网络）

卷积神经网络是一种特殊的深层的神经网络模型，它的特殊性体现在两个方面，一方面它的神经元间的连接是非全连接 的，另一方面同一层中某些神经元之间的连接的权重是共享的（即相同的）。它的非全连接和权值共享的网络结构使之更类似于生物神经网络，降低了网络模型的复杂度（对于很难学习的深层结构来说，这是非常重要的），减少了权值的数量。

卷积网络是为识别二维形状而特殊设计的一个多层感知器

ELM（极限学习机）

极限学习机(ExtremeLearning Machine) ELM，是由黄广斌提出来的求解神经网络算法。ELM最大的特点是对于传统的神经网络，尤其是单隐层前馈神经网络(SLFNs)，ELM比传统的学习算法速度更快。