吴恩达深度学习神经网络 softmax adam 交叉验证

神经网络中的层 ：输入层（layer 0）、隐藏层、卷积层（看情况用这个）、输出层。（参考文章）

激活函数 ：

隐藏层一般用relu函数；

输出层根据需要，二分类用sigmoid，多分类用softmax...前向传播算法：参考文章
 前向传播python实现
反向传播算法 ：参考文章
用Tensorflow搭建一个神经网络 ：参考文章

多分类问题

softmax回归算法 ：
上图中左二分类；右多分类

算法公式：

Softmax回归算法的损失函数 ：

Adam算法

参考文章

在梯度下降中，学习率α控制着每一步的大小，如果α太小，可能会导致每一步走的太小，从而使梯度下降执行的太慢；相反，如果α太大，可能会导致每一步走的太大，从而使梯度下降来回振荡。
Adam算法可以自动调整α的大小 ，来保证可以用最短、最平滑的路径到达成本函数的最小值，通常它比梯度下降算法的速度要更快。
在w、b参数每次改变都朝着大致相同的方向 移动时，adam算法会加大学习率α
在w、b参数每次改变都不断来回振荡 时，adam算法会减小学习率α

交叉验证集

首先用训练集训练模型，之后用验证集选出最小的J，即相对最好的模型。
超参数d与 J t r a i n J_{train} Jtrain、 J c v J_{cv} Jcv的关系 ：（即随着数据的增多， J t r a i n J_{train} Jtrain、 J c v J_{cv} Jcv的图）

λ如何影响 J t r a i n J_{train} Jtrain、 J c v J_{cv} Jcv :