深度学习pytorch——减少过拟合的几种方法（持续更新）

Echo-J2024-03-30 20:48

1、增加数据集

2、正则化(Regularization)

正则化：得到一个更加简单的模型的方法。

以一个多项式为例：

随着最高次的增加，会得到一个更加复杂模型，模型越复杂就会更好的拟合输入数据的模型（图-1），拟合的程度越大，表现在参数上的现象就是高次的系数趋近于0，如果直接将趋近于0的高次去掉，就可以得到一个更加简单的模型，这种方法称为正则化。
图-1

直观的看，经过正则化的模型更加平滑（图-2）.
图-2

正则化的方法：

（1）L1-正则化：在原来的模型基础上加上一个 1-范数（这里使用二分类模型作为示例）：

（2）L2-正则化：在原来的模型基础上加上一个 2-范数（这里使用二分类模型作为示例）：

代码示例：

python 复制代码

# L2-正则化
device = torch.device('cuda:0')
net = MLP.to(device)
optimizer = optim.SGD(net.parameters,lr = learning_rate,weight_decay=0.01) #weight_decay=0.01就代表进行L2-正则化
criteoon = nn.CrossEntropyLoss().to(device)

python 复制代码

# L1-正则化
# 对于L1-正则化，pytorch并没有提供直接的方法，就只能使用人工去做了
regularization_loss = 0
for param in model.parameters():                # 相求1-范数的总和
    regularization_loss += torch.sum(torch.abs(param))

classify_loss = criteon(logits,target)
loss = classify_loss + 0.01*regularization_loss     # 再将得到的正则损失加入模型损失，其中0.01是1-范数总和前面的系数

optimizer.zero_grad()
loss.backward()
optimizer.step()

3、加入动量（momentum）

动量即惯性------本次向哪移动，还需要考虑上一次移动的方向。

正常更新梯度的公式（公式-1）：
公式-1

加入动量之后的公式（公式-2）：
公式-2

将z(k+1)带入梯度更新公式，即公式-1减去，其中Z(k)相当于上一次的梯度，系数和β的大小决定了是当前梯度对方向的决定性大，还是上一梯度对方向的决定性大。

当动量为0时的梯度更新情况（图-3）：
图-3

动量不为0时的梯度更新情况（图-4）：
图-4

将图-3和图-4对比，可以得出动量不为0，即考虑上一梯度，梯度更新更加稳定，不会出现巨大的跳跃情况，并且不加动量的没有找到最小点，一直在局部最小值点徘徊，如果加入动量，考虑到上一梯度，可以在一定程度上解决这种情况（图-4是加入动量之后最好的情况）。

代码演示，直接在优化器部分使用momentum属性就可以了，但是如果使用Adam优化器，就不需要添加，因为在Adam优化器内部定义的有momentum属性：

4、学习率（Learning Rate ）

不同学习率梯度更新情况（图-5）：
图-5

当学习率太小的时候，梯度更新比较慢，需要较多次的更新。

当学习率太大的时候，梯度更新比较激烈，找到的极值点Loss太大。

如何找到正确的的学习率？

在训练之初，可以先设置一个较大的学习率加快更新的速度，然后逐步减小学习率，即设置一个动态学习率。
图-6

从图-6，可以看到有一个突然下降的点，这个点就是学习率训练一些数据之后，学习率突然变小导致的结果。在此之前可以看到Loss趋于不变，可以合理的猜测是因为学习率太大了，出现了来回摇摆不定的情况（图-7）：
图-7

当学习率突然减小，梯度更新变慢，易找到极小点（图-8）：
图-8

代码演示：

5、dropout

dropout：减少神经元之间的连接，减少模型的学习量。标准的神经网络是全连接的，相比经过dropout的神经网络减少了一些连接（图-9）。
图-9

代码演示，可以使用Dropout方法断开连接，0.5代表断开两层之间的50% ：

这种方法被用在模型训练中，但当模型测试过程中，为了提高test的表现，要结束这个操作，将所有的连接都使用上，可以使用net_dropped.eval()方法结束这个操作，代码演示如下：

6、随机梯度下降（Strochastic Gradient Descent ）

这里的随机并不是指任意，这里面是有一套规则的，是一套映射的关系，即将原来的数据x送入f(x)得到一种分布。经过随机从原数据中得到一组小数据，使用这一小组数据训练模型。

学习：课时60 Early stopping, dropout等_哔哩哔哩_bilibili

上一篇：(vue)el-table表格回显返回的已勾选的数据

下一篇：Elment ui 动态表格与表单校验列表数据组件

热门推荐

01如何新建文件夹？电脑新建文件夹的4种方法 02GitHub 镜像站点 03国内可直接用、免费额度/永久免费的大模型API清单（含 SiliconFlow、火山、阿里、智谱、百度、Kimi、DeepSeek、DMXAPI 等）042026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 05微信历史版本含下载地址（ Windows PC | 安卓 | MAC ）及设置微信不更新 06AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 072026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？08AI科技热点日报 | 2026年07月01日 09Agnes AI 免费 API 接入指南：文本、生图、生视频，一套接口全免费 102026 年 AI 大模型 & AI 编程工具实战全总结