李沐深度学习记录4:12.权重衰减/L2正则化

权重衰减从零开始实现

python 复制代码
#高维线性回归
%matplotlib inline
import torch
from torch import nn
from d2l import torch as d2l

#整个流程是,1.生成标准数据集,包括训练数据和测试数据
#          2.定义线性模型训练
#           模型初始化(函数)、包含惩罚项的损失(函数)
#           定义epochs进行训练,每训练5轮评估一次模型在训练集和测试集的损失,画图显示
#           训练结束后分别查看并比较是否添加范数惩罚项损失对应的训练结果w的L2范数
#生成数据集
n_train, n_test, num_inputs, batch_size = 20, 100, 200, 5  #训练数据样本数20,测试样本数100,数据维度200,批量大小5
true_w, true_b = torch.ones((num_inputs, 1)) * 0.01, 0.05  #生成w矩阵(200,1),w值0.01,偏置b为0.05
train_data = d2l.synthetic_data(true_w, true_b, n_train) #生成训练数据集X(20,200),y(20,1),y=Xw+b+噪声,train_data接收返回的X,y
train_iter = d2l.load_array(train_data, batch_size)  #传入数据集和批量大小,构造训练数据迭代器
test_data = d2l.synthetic_data(true_w, true_b, n_test) #生成测试数据集
test_iter = d2l.load_array(test_data, batch_size, is_train=False)  #构造测试数据迭代器

#初始化模型参数
def init_params():
    w = torch.normal(0, 1, size=(num_inputs, 1), requires_grad=True)
    b = torch.zeros(1, requires_grad=True)
    return [w, b]

#定义L2范数惩罚项
def l2_penalty(w):
    return torch.sum(w.pow(2)) / 2  #L2范数公式需要开平方根,但这里L2范数惩罚项是L2范数的平方,所以不需要开平方根了

#训练代码
def train(lambd):  #输入λ超参数
    w, b = init_params()  #初始化模型参数
    net, loss = lambda X: d2l.linreg(X, w, b), d2l.squared_loss  #net线性模型torch.matmul(X, w) + b;loss是均方误差
    num_epochs, lr = 100, 0.003
    animator = d2l.Animator(xlabel='epochs', ylabel='loss', yscale='log',
                            xlim=[5, num_epochs], legend=['train', 'test'])
    for epoch in range(num_epochs):  #进行多次迭代训练
        for X, y in train_iter:  #每个epoch,取训练数据
            # 增加了L2范数惩罚项,
            # 广播机制使l2_penalty(w)成为一个长度为batch_size的向量
            l = loss(net(X), y) + lambd * l2_penalty(w)  #loss计算加上了λ×范数惩罚项
            l.sum().backward()  #这里计算损失和,下面参数更新时会对梯度求平均再更新参数
            d2l.sgd([w, b], lr, batch_size)  #进行参数更新操作
        if (epoch + 1) % 5 == 0:  #每5次epoch训练,评估一次模型的训练损失和测试损失
            animator.add(epoch + 1, (d2l.evaluate_loss(net, train_iter, loss),
                                     d2l.evaluate_loss(net, test_iter, loss)))
    print('w的L2范数是:', torch.norm(w).item())  #训练结束后,计算w的L2范数(没有平方)
python 复制代码
#λ为0,无正则化项,训练
train(lambd=0)
d2l.plt.show()
python 复制代码
#λ为10,有正则化项,训练
train(lambd=5)
d2l.plt.show()

权重衰减的简洁实现

python 复制代码
#权重衰减的简洁实现
def train_concise(wd):
    net = nn.Sequential(nn.Linear(num_inputs, 1))   #定义模型
    for param in net.parameters():   #初始化参数
        param.data.normal_()
    loss = nn.MSELoss(reduction='none')  #计算loss,这里不包含正则项
    num_epochs, lr = 100, 0.003
    # 偏置参数没有衰减
    #在参数优化部分,计算梯度时加入了权重衰减
    #所以是计算loss时没计算正则项,只是在计算梯度时加入了权重衰减吗?
    trainer = torch.optim.SGD([
        {"params":net[0].weight,'weight_decay': wd},
        {"params":net[0].bias}], lr=lr)
    animator = d2l.Animator(xlabel='epochs', ylabel='loss', yscale='log',
                            xlim=[5, num_epochs], legend=['train', 'test'])
    for epoch in range(num_epochs):   #训练100轮
        for X, y in train_iter:  #对于每轮,取数据训练
            trainer.zero_grad()   #梯度清零
            l = loss(net(X), y)  #计算loss
            l.mean().backward() #反向传播
            trainer.step()  #更新梯度
        if (epoch + 1) % 5 == 0:   #每5轮评估一次模型在测试集和训练集的损失
            animator.add(epoch + 1,
                         (d2l.evaluate_loss(net, train_iter, loss),
                          d2l.evaluate_loss(net, test_iter, loss)))
    print('w的L2范数:', net[0].weight.norm().item())
python 复制代码
#没有进行权重衰减
train_concise(0)
python 复制代码
#进行权重衰减
train_concise(5)
相关推荐
fanstuck4 分钟前
Prompt提示工程上手指南(六):AI避免“幻觉”(Hallucination)策略下的Prompt
人工智能·语言模型·自然语言处理·nlp·prompt
zhangfeng113334 分钟前
win7 R 4.4.0和RStudio1.25的版本兼容性以及系统区域设置有关 导致Plots绘图面板被禁用,但是单独页面显示
开发语言·人工智能·r语言·生物信息
DogDaoDao1 小时前
神经网络稀疏化设计构架方法和原理深度解析
人工智能·pytorch·深度学习·神经网络·大模型·剪枝·网络稀疏
西猫雷婶2 小时前
pytorch基本运算-Python控制流梯度运算
人工智能·pytorch·python·深度学习·神经网络·机器学习
说私域2 小时前
新零售第一阶段传统零售商的困境突破与二次增长路径:基于定制开发开源AI智能名片S2B2C商城小程序的实践探索
人工智能·开源·零售
寒月霜华3 小时前
机器学习-模型验证
人工智能·深度学习·机器学习
救救孩子把3 小时前
3-机器学习与大模型开发数学教程-第0章 预备知识-0-3 函数初步(多项式、指数、对数、三角函数、反函数)
人工智能·数学·机器学习
CareyWYR3 小时前
每周AI论文速递(250908-250912)
人工智能
张晓~183399481213 小时前
短视频矩阵源码-视频剪辑+AI智能体开发接入技术分享
c语言·c++·人工智能·矩阵·c#·php·音视频
deephub4 小时前
量子机器学习入门:三种数据编码方法对比与应用
人工智能·机器学习·量子计算·数据编码·量子机器学习