神经网络 07(正则化)

一、正则化

在设计机器学习算法时不仅要求在训练集上误差小,而且希望在新样本上的泛化能力强。许多机器学习算法都采用相关的策略来减小测试误差,这些策略被统称为正则化。因为神经网络的强大的表示能力经常遇到过拟合 ,所以需要使用不同形式的正则化策略

正则化通过对算法的修改来减少泛化误差 ,目前在深度学习中使用较多的策略有参数范数惩罚,提前终止,DropOut等,接下来我们对其进行详细的介绍。

1.1 L1和L2正则化

L1和L2是最常见的正则化方法。它们在损失函数 (cost function)中增加一个正则项,由于添加了这个正则化项,权重矩阵的值减小,因为它假定具有更小权重矩阵的神经网络导致更简单的模型。因此,它也会在一定程度上减少过拟合。然而,这个正则化项在L1和L2中是不同的。

它是一个需要优化的超参数。L2正则化又称为权重衰减,因为其导致权重这里的入是正则化参数,趋向于0(但不全是0)。

这里,我们惩罚权重矩阵的绝对值。其中,入为正则化参数,是超参数,**不同于L2,权重值可能被减少到0.**因此,L1对于压缩模型很有用。其它情况下,一般选择优先选择L2正则化。

1.2 dropout 正则化

dropout是在深度学习领域最常用的正则化技术。Dropout的原理很简单: 假设我们的神经网络结构如下所示,在每个迭代过程中,随机失活某些节点,并且删除前向和后向连接。

因此,每个迭代过程都会有不同的节点组合,从而导致不同的输出,这可以看成机器学习中的集成方法 (ensemble technique)。集成模型一般优于单一模型,因为它们可以捕获更多的随机性。相似地,dropout使得神经网络模型优于正常的模型。

python 复制代码
tf.keras.layers.Dropout(rate)

rate 每一个神经元被丢弃的概率

1.3 早停

提前停止 (early stopping) 是将一部分训练集作为验证集 (validation set)。当验证集的性能越来越差时或者性能不再提升,则立即停止对该模型的训练。这被称为提前停止。

在上图中,在虚线处停止模型的训练,此时模型开始在训练数据上过拟合

1.4 批标准化

批标准化(BN层,Batch Normalization)是2015年提出的一种方法,在进行深度网络训练时,大多会采取这种算法,与全连接层一样,BN层也是属于网络中的一层

BN层是针对单个神经元进行,利用网络训练时一个 minibatch 的数据来计算该神经元xi 的均值和方差,归一化后并重构,因而称为 Batch Normalization。在每一层输入之前,将数据进行BN,然后再送入后续网络中进行学习:

然后在使用变换重构 ,引入了可学习参数Y、B,如果各隐藏层的输入均值在靠近0的区域,即处于激活函数的线性区域不利于训练非线性神经网络,从而得到效果较差的模型。

因此,需要用Y和B对标准化后的结果做进一步处理:

相关推荐
herogus丶17 分钟前
【Spring AI】Spring AI Alibaba的简单使用
java·人工智能·spring·ai
dundunmm1 小时前
机器学习之pandas
人工智能·python·机器学习·数据挖掘·pandas
小火炉Q1 小时前
16 循环语句——for循环
人工智能·python·网络安全
88号技师1 小时前
真实环境下实车运行,新能源汽车锂离子电池数据集
人工智能·电动汽车·电池状态估计
原点安全2 小时前
“鼎和财险一体化数据安全管控实践”入选信通院金融领域优秀案例
大数据·人工智能·金融
红色的山茶花2 小时前
YOLOv9-0.1部分代码阅读笔记-anchor_generator.py
笔记·深度学习·yolo
吃个糖糖2 小时前
37 Opencv SIFT 特征检测
人工智能·opencv·计算机视觉
麦田里的稻草人w2 小时前
【YOLO】(基础篇一)YOLO介绍
人工智能·python·神经网络·yolo·机器学习
BTColdman12 小时前
探索 Pencils Swap 的叙事:为 DeFi 的再次爆发蓄力
人工智能·区块链
Do1phln2 小时前
论文阅读 - 《Large Language Models Are Zero-Shot Time Series Forecasters》
论文阅读·人工智能·语言模型