误差平方代价函数,对于大多数问题,特别是回归问题,都是一个合理的选择。
梯度下降会自动采取更小的步骤,所以不需要随时间减小学习率a。
在梯度下降算法中,如果学习率太大,loss不是来回震荡,而是爆炸。如下图:在第二种情况中,如果学习率太大,参数更新超过了最小值点,由于学习率的放大作用,loss到了更高的一点,基于这点的偏导数,乘以放大的学习率,会反向跳到更大的loss处。所以,学习率太大,最终的loss不是震荡,而是爆炸。
4. 解决过拟合问题降低特征数量:手动选择或者模型自动选择特征
正则化:保留特征,但是降低参数的幅值。
啊