Pytorch代码入门学习之分类任务(三):定义损失函数与优化器

目录

一、定义损失函数

[1.1 代码](#1.1 代码)

[1.2 损失函数简介](#1.2 损失函数简介)

[1.3 交叉熵误差(cross entropy error)](#1.3 交叉熵误差(cross entropy error))

二、定义优化器

[2.1 代码](#2.1 代码)

[2.2 构造优化器](#2.2 构造优化器)

[2.3 随机梯度下降法(SGD)](#2.3 随机梯度下降法(SGD))


一、定义损失函数

1.1 代码

复制代码
criterion = nn.CrossEntropyLoss()

1.2 损失函数简介

神经网络的学习通过某个指标表示目前的状态,然后以这个指标为基准,寻找最优的权重参数。神经网络以某个指标为线索寻找最优权重参数,该指标称为损失函数 (loss function)。这个损失函数可以使用任意函数, 但一般用均方误差和交叉熵误差等。损失函数是表示神经网络性能的"恶劣程度"的指标,即当前的神经网络对监督数据在多大程度上不拟合、不一致。这个值越低,表示网络的学习效果越好。

但是,如果loss很低的话,可能出现过拟合现象。

过拟合是指训练出来的模型在训练集上表现得很好,但是在测试集上表现的较差,模型训练的误差远小于它在测试集上的误差。

1.3交叉熵误差(cross entropy error)

交叉熵误差如下式所示:

其中,log表示以e为底数的自然对数(log e );yk指神经网络的输出,tk是正确解标签。并且,tk中只有正确解标签的索引为1,其他均为0(one-hot表示)。 因此,上式实际上只计算对应正确解标签的输出的自然对数。比如,假设正确解标签的索引是"2",与之对应的神经网络的输出是0.6,则交叉熵误差 是−log 0.6 = 0.51;若"2"对应的输出是0.1,则交叉熵误差为−log 0.1 = 2.30。因此,交叉熵误差的值是由正确解标签所对应的输出结果决定的。

交叉熵误差函数需要两个参数,第一个是输入参数 (预测值),第二个是正确值

二、定义优化器

2.1 代码

复制代码
import torch.optim as optim
optimizer = optim.SGD(net.parameters(),lr=0.001,momentum=0.9)

2.2 构造优化器

**optimizer = optim.SGD(net.parameters(),lr=0.001,momentum=0.9):**第一个参数是需要更新的参数,第二个参数是指学习率(指每次更新学习率下降的大小),第三个参数为动量;

2.3 随机梯度下降法(SGD)

用数学式子可以把SGD写为如下的式:

其中,W记为需要更新的权重参数,是指损失函数关于W的梯度,表示学习率,一般情况下会取为0.01或0.001这类事先决定好的值。式子中的"箭头"表示用右边的值更新左边的值。

SGD较为简单,且容易实现,但是在解决某些问题时可能没有效率。SGD是朝着梯度方向只前进一定距离的简单方法,且梯度的方法并没有指向最小值的方向。

参考:004 第一个分类任务2_哔哩哔哩_bilibili

相关推荐
数据智能老司机18 小时前
精通 Python 设计模式——并发与异步模式
python·设计模式·编程语言
数据智能老司机18 小时前
精通 Python 设计模式——测试模式
python·设计模式·架构
数据智能老司机18 小时前
精通 Python 设计模式——性能模式
python·设计模式·架构
c8i18 小时前
drf初步梳理
python·django
每日AI新事件18 小时前
python的异步函数
python
这里有鱼汤19 小时前
miniQMT下载历史行情数据太慢怎么办?一招提速10倍!
前端·python
databook1 天前
Manim实现脉冲闪烁特效
后端·python·动效
程序设计实验室1 天前
2025年了,在 Django 之外,Python Web 框架还能怎么选?
python
倔强青铜三1 天前
苦练Python第46天:文件写入与上下文管理器
人工智能·python·面试
用户2519162427111 天前
Python之语言特点
python