神经网络 07(正则化)

一、正则化

在设计机器学习算法时不仅要求在训练集上误差小,而且希望在新样本上的泛化能力强。许多机器学习算法都采用相关的策略来减小测试误差,这些策略被统称为正则化。因为神经网络的强大的表示能力经常遇到过拟合 ,所以需要使用不同形式的正则化策略

正则化通过对算法的修改来减少泛化误差 ,目前在深度学习中使用较多的策略有参数范数惩罚,提前终止,DropOut等,接下来我们对其进行详细的介绍。

1.1 L1和L2正则化

L1和L2是最常见的正则化方法。它们在损失函数 (cost function)中增加一个正则项,由于添加了这个正则化项,权重矩阵的值减小,因为它假定具有更小权重矩阵的神经网络导致更简单的模型。因此,它也会在一定程度上减少过拟合。然而,这个正则化项在L1和L2中是不同的。

它是一个需要优化的超参数。L2正则化又称为权重衰减,因为其导致权重这里的入是正则化参数,趋向于0(但不全是0)。

这里,我们惩罚权重矩阵的绝对值。其中,入为正则化参数,是超参数,**不同于L2,权重值可能被减少到0.**因此,L1对于压缩模型很有用。其它情况下,一般选择优先选择L2正则化。

1.2 dropout 正则化

dropout是在深度学习领域最常用的正则化技术。Dropout的原理很简单: 假设我们的神经网络结构如下所示,在每个迭代过程中,随机失活某些节点,并且删除前向和后向连接。

因此,每个迭代过程都会有不同的节点组合,从而导致不同的输出,这可以看成机器学习中的集成方法 (ensemble technique)。集成模型一般优于单一模型,因为它们可以捕获更多的随机性。相似地,dropout使得神经网络模型优于正常的模型。

python 复制代码
tf.keras.layers.Dropout(rate)

rate 每一个神经元被丢弃的概率

1.3 早停

提前停止 (early stopping) 是将一部分训练集作为验证集 (validation set)。当验证集的性能越来越差时或者性能不再提升,则立即停止对该模型的训练。这被称为提前停止。

在上图中,在虚线处停止模型的训练,此时模型开始在训练数据上过拟合

1.4 批标准化

批标准化(BN层,Batch Normalization)是2015年提出的一种方法,在进行深度网络训练时,大多会采取这种算法,与全连接层一样,BN层也是属于网络中的一层

BN层是针对单个神经元进行,利用网络训练时一个 minibatch 的数据来计算该神经元xi 的均值和方差,归一化后并重构,因而称为 Batch Normalization。在每一层输入之前,将数据进行BN,然后再送入后续网络中进行学习:

然后在使用变换重构 ,引入了可学习参数Y、B,如果各隐藏层的输入均值在靠近0的区域,即处于激活函数的线性区域不利于训练非线性神经网络,从而得到效果较差的模型。

因此,需要用Y和B对标准化后的结果做进一步处理:

相关推荐
荼蘼13 分钟前
OpenCV 高阶 图像金字塔 用法解析及案例实现
人工智能·opencv·计算机视觉
Clownseven15 分钟前
2025云计算趋势:Serverless与AI大模型如何赋能中小企业
人工智能·serverless·云计算
2401_8288906416 分钟前
使用 BERT 实现意图理解和实体识别
人工智能·python·自然语言处理·bert·transformer
Cheney82230 分钟前
华为Ai岗机考20250903完整真题
人工智能·华为
新智元36 分钟前
=COPILOT() 函数横空出世!AI 自动写公式效率起飞,网友:让 Excel 再次伟大
人工智能·openai
scx_link42 分钟前
Word2Vec词嵌入技术和动态词嵌入技术
人工智能·自然语言处理·word2vec
云梦谭44 分钟前
Cursor 编辑器:面向 AI 编程的新一代 IDE
ide·人工智能·编辑器
IT_陈寒1 小时前
Redis性能提升50%的7个关键优化策略,90%开发者都不知道第5点!
前端·人工智能·后端
乐迪信息1 小时前
乐迪信息:AI摄像机在智慧煤矿人员安全与行为识别中的技术应用
大数据·人工智能·算法·安全·视觉检测
AI人工智能+1 小时前
炫光活体检测技术:通过光学技术实现高效、安全的身份验证,有效防御多种伪造手段。
人工智能·深度学习·人脸识别·活体检测