机器学习总结

1线性回归,最小二乘(高数角度),正规方程组(线性代数角度),贝叶斯(概率角度)

初始化假设h(theta)=theta0+theta1*x,(这里以单变量为例),利用梯度下降法进行权值的更新。

中J(theta0,theta1)就是损失函数,即(1/2m)*(h(theta)-y)^2。A代表机器学其习率,梯度下降算法中另一关键点就是机器学习率的设计:设计准则是保证每一步迭代后都保证能使cost function下降,a过小会导致J(theta)收敛过慢,a过大,则会导致J(theta)跨步较大,可能会得到相反的结果,随着迭代次数的增加,J(theta)越跳越大,造成无法收敛。

与gradient descent平行的一种方法为Normal Equation,它采用线性代数中非迭代的方法

对于有m个样本,每个拥有n个feature的一个训练集,有X是m×(n+1)的矩阵,XTX是(n+1)×(n+1)的方阵,那么对于参数θ的计算就出现了一个问题,如果|XTX|=0,即XTX不可求逆矩阵怎么办?这时可以进行冗余feature的删除(m<=n的情况,feature过多)。其实这里是利用行列式中任意两行相同,该行列式为0,所以feature中可能有冗余,进而来删除冗余,以达效果。

2逻辑回归与过拟合的解决。

所谓one-vs-all method就是将binary分类的方法应用到多类分类中。比如我想分成K类,那么就将其中一类作为positive,另(k-1)合起来作为negative,这样进行K个h(θ)的参数优化,每次得到的一个hθ(x)是指给定θ和x,它属于positive的类的概率。

线性回归和logistic回归都有过拟合的问题,解决方案一般有两种:1减少feature的数量,2添加normal regularization.

问题,最小二乘,logistic,梯度下降之间的关系,以及所处的位置(即功能)

最小二乘法和Logistic回归的目标函数,可使用不同的概率分布,在极大似然估计的框架下导出------分别是高斯分布和二项分布;因此,它们同属于(广义)线性模型。梯度下降是具体的数值计算手段;并且,这两个目标函数的二阶导Hessian矩阵正(负)定,全局最优一定是局部最优解

3神经网络

引入神经网络的目的,其实就是为了解决多个特征,多个样本的问题,多个样本,比如下图中这个例子:从100*100个pixels中选出所有XiXj作为logistic regression的一个参数,那么总共就有5*10^7个feature,即x有这么多维。

向前传递

Backpropagationalgorithm其实是误差反向传播,定义神经网络的总误差为:

希望通过调整权重参数(theta)来最小化E,每层按照如下方式进行更新

根据backpropagation算法进行梯度的计算,这里引入了error变量δ,该残差表明了该节点对最终输出值的残差产生了多少影响。对于最后一层,我们可以直接算出网络产生的输出与实际值之间的差距,我们将这个差距定义为。对于隐藏单元我们如何处理呢?我们将通过计算各层节点残差的加权平均值计算hidden layer的残差。在最后一层中,

对于前面的每一层,都有

4深度学习

1、有监督学习和无监督学习

有监督学习:最常见的是分类和回归

regression:Y是实数vector。回归问题,就是拟合(X,Y)的一条曲线,使得cost function L最小。

2、无监督学习:无监督学习的目的是学习一个function f使它可以描述给定数据的位置分布P(Z)。包括两种:density estimation & clustering.densityestimation就是密度估计,估计该数据在任意位置的分布密度。clustering就是聚类,将Z聚集几类,或者给出一个样本属于每一类的概率。由于不需要事先根据训练数据去train聚类器,故属于无监督学习。

深度学习核心思想:

把learning hierarchy 看做一个network,则

①无监督学习用于每一层网络的pre-train;

②每次用无监督学习只训练一层,将其训练结果作为其higher一层的输入;

③用监督学习去调整所有层

深度神经网络的一大特点就是含有多隐含层

CNN(深度卷积网络)和DBN(深度置信网络)

卷积神经网络是一种特殊的深层的神经网络模型,它的特殊性体现在两个方面,一方面它的神经元间的连接是非全连接 的,另一方面同一层中某些神经元之间的连接的权重是共享的(即相同的)。它的非全连接和权值共享的网络结构使之更类似于生物神经网络,降低了网络模型的复杂度(对于很难学习的深层结构来说,这是非常重要的),减少了权值的数量。

卷积网络是为识别二维形状而特殊设计的一个多层感知器

ELM(极限学习机)

极限学习机(ExtremeLearning Machine) ELM,是由黄广斌提出来的求解神经网络算法。ELM最大的特点是对于传统的神经网络,尤其是单隐层前馈神经网络(SLFNs),ELM比传统的学习算法速度更快。

相关推荐
小喵要摸鱼2 小时前
【机器学习】监督学习 —— 决策树(Decision Tree)
决策树·机器学习
明月照山海-2 小时前
机器学习周报十五
人工智能·机器学习
ASIAZXO2 小时前
机器学习——逻辑回归详解
人工智能·机器学习·逻辑回归
Hcoco_me2 小时前
YOLO入门教程(番外):计算机视觉数学、编程基础
人工智能·yolo·计算机视觉
IT古董2 小时前
【第五章:计算机视觉-项目实战之图像分割实战】2.图像分割实战:人像抠图-(1)人像抠图Image Matting算法详解
人工智能·计算机视觉
苏苏susuus2 小时前
NLP:关于Bert模型的基础讲解
人工智能·自然语言处理·bert
无风听海3 小时前
神经网络之剪切变换
人工智能·深度学习·神经网络
deephub3 小时前
从零构建短视频推荐系统:双塔算法架构解析与代码实现
人工智能·神经网络·机器学习·推荐系统
en-route3 小时前
从零开始学神经网络——RNN(循环神经网络)
人工智能·rnn·深度学习