激活函数
ReLu还是还是可能出现梯度弥散,因为x<0的时候,梯度还是可能小于0
leaky relu,在x<0的时候,梯度就不会为0,梯度不会不动
Relu函数在x=0处是不连续的
一种更加光滑的曲线是SELU,是两个函数的concat
softplus,把ReLu的尖点x=0做了一个平滑处理,使得导数不连续的地方导数连续
目前用的最多的是Relu、sigmoid,tan h(RNN)以及Leaky Relu
GPU加速
loss层也是需要计算的,可以把loss层也搬到GPU上去