deep learning简介

（1）定义一组模型；

（2）定义评估函数；

（3）寻找最好的模型；

这里的function就是神经元网络

考虑我们的logic regression,把多个logic regression叠在一起，就组成了一个神经元网络，单个logic regression就是一个神经元

可以使用不同的方法来连接这些神经元，从而得到不同结构的神经网络，而所有的logic regression的w，b参数的合集，就是这个神经网络的参数

一个经典的连接方式是：全连接前馈网络，也叫多层感知机。

全连接：指的是网络中相邻两层之间的神经元是两两相连的。也就是说，第N层的每一个神经元都连接到第N+1层的每一个神经元。这是最经典、最密集的连接方式。

前馈：指的是数据在网络中的流动是单向的，从输入层开始，逐层传递到输出层。网络中没有循环或反馈连接。

把多个神经元排成多列，每一列叫做一层，每一层的输入个数叫作该层的维度

严格上没有输入层，为了统一描述，叫作输入层，输出层是最后一层Logic regression的合集，中间的叫隐藏层

我们从输入到输出的运算可以写成矩阵运算的式子，矩阵运算可以通过GPU进行加速

把输入层到输出层之间的隐藏层看作一个整体，他们在里面做的是特征变换的工作，相当于把输入特征经过一系列变换，最终得到一组特征用来给输出层用

整个神经网络的好坏如何评估，根据前面逻辑回归的结论，可以使用output前的结果与output后的结果做交叉熵作为损失函数，令交叉熵最小

假设第一笔数据x1x^1x1算出来交叉熵为C1C^1C1，第二笔数据x2x^2x2算出来交叉熵为C2C^2C2，那么总的交叉熵之和就是整个网络的损失函数

我们要做的事情就是在模型集合里面找到一个模型使得损失最小，或者说找到一组参数θ\thetaθ使得loss最小

要找到这样一组参数，用的也是梯度下降的方法

这里的梯度集合就是对所有参数分别做偏微分的集合，由于涉及到大量微分计算，反向传播是一种有效的计算微分的方式，现在有很多工具，像tensorflow，pytorch等，可以用来计算微分

一些资料：