Pytorch代码入门学习之分类任务(三):定义损失函数与优化器

目录

一、定义损失函数

[1.1 代码](#1.1 代码)

[1.2 损失函数简介](#1.2 损失函数简介)

[1.3 交叉熵误差(cross entropy error)](#1.3 交叉熵误差(cross entropy error))

二、定义优化器

[2.1 代码](#2.1 代码)

[2.2 构造优化器](#2.2 构造优化器)

[2.3 随机梯度下降法(SGD)](#2.3 随机梯度下降法(SGD))


一、定义损失函数

1.1 代码

复制代码
criterion = nn.CrossEntropyLoss()

1.2 损失函数简介

神经网络的学习通过某个指标表示目前的状态,然后以这个指标为基准,寻找最优的权重参数。神经网络以某个指标为线索寻找最优权重参数,该指标称为损失函数 (loss function)。这个损失函数可以使用任意函数, 但一般用均方误差和交叉熵误差等。损失函数是表示神经网络性能的"恶劣程度"的指标,即当前的神经网络对监督数据在多大程度上不拟合、不一致。这个值越低,表示网络的学习效果越好。

但是,如果loss很低的话,可能出现过拟合现象。

过拟合是指训练出来的模型在训练集上表现得很好,但是在测试集上表现的较差,模型训练的误差远小于它在测试集上的误差。

1.3交叉熵误差(cross entropy error)

交叉熵误差如下式所示:

其中,log表示以e为底数的自然对数(log e );yk指神经网络的输出,tk是正确解标签。并且,tk中只有正确解标签的索引为1,其他均为0(one-hot表示)。 因此,上式实际上只计算对应正确解标签的输出的自然对数。比如,假设正确解标签的索引是"2",与之对应的神经网络的输出是0.6,则交叉熵误差 是−log 0.6 = 0.51;若"2"对应的输出是0.1,则交叉熵误差为−log 0.1 = 2.30。因此,交叉熵误差的值是由正确解标签所对应的输出结果决定的。

交叉熵误差函数需要两个参数,第一个是输入参数 (预测值),第二个是正确值

二、定义优化器

2.1 代码

复制代码
import torch.optim as optim
optimizer = optim.SGD(net.parameters(),lr=0.001,momentum=0.9)

2.2 构造优化器

**optimizer = optim.SGD(net.parameters(),lr=0.001,momentum=0.9):**第一个参数是需要更新的参数,第二个参数是指学习率(指每次更新学习率下降的大小),第三个参数为动量;

2.3 随机梯度下降法(SGD)

用数学式子可以把SGD写为如下的式:

其中,W记为需要更新的权重参数,是指损失函数关于W的梯度,表示学习率,一般情况下会取为0.01或0.001这类事先决定好的值。式子中的"箭头"表示用右边的值更新左边的值。

SGD较为简单,且容易实现,但是在解决某些问题时可能没有效率。SGD是朝着梯度方向只前进一定距离的简单方法,且梯度的方法并没有指向最小值的方向。

参考:004 第一个分类任务2_哔哩哔哩_bilibili

相关推荐
花酒锄作田10 小时前
使用 pkgutil 实现动态插件系统
python
前端付豪14 小时前
LangChain链 写一篇完美推文?用SequencialChain链接不同的组件
人工智能·python·langchain
曲幽15 小时前
FastAPI实战:打造本地文生图接口,ollama+diffusers让AI绘画更听话
python·fastapi·web·cors·diffusers·lcm·ollama·dreamshaper8·txt2img
老赵全栈实战15 小时前
Pydantic配置管理最佳实践(一)
python
阿尔的代码屋21 小时前
[大模型实战 07] 基于 LlamaIndex ReAct 框架手搓全自动博客监控 Agent
人工智能·python
AI探索者2 天前
LangGraph StateGraph 实战:状态机聊天机器人构建指南
python
AI探索者2 天前
LangGraph 入门:构建带记忆功能的天气查询 Agent
python
FishCoderh2 天前
Python自动化办公实战:批量重命名文件,告别手动操作
python
躺平大鹅2 天前
Python函数入门详解(定义+调用+参数)
python
曲幽2 天前
我用FastAPI接ollama大模型,差点被asyncio整崩溃(附对话窗口实战)
python·fastapi·web·async·httpx·asyncio·ollama