李沐动手学习深度学习——3.3练习

欢迎讨论

1. 如果将小批量的总损失替换为小批量损失的平均值,需要如何更改学习率?

找到相关的函数介绍nn.MSELoss

默认api nn.MSELoss中是小批量损失的平均值,所以学习率为0.03

拿到对应的batch loss细节如下:

当学习率为0.03,损失函数的值为小批量的总损失时候,发现不能够收敛了。

拿到对应的batch loss细节如下:

可以看到sum的loss大于mean的loss,所以对应的sum的学习率应该调整为0.003。

2. 查看深度学习框架文档,它们提供了哪些损失函数和初始化方法?用Huber损失代替原损失,即

百度即可:
pytorch框架损失函数
pytorch初始化方法

MeanLoss替换为SmoothL1Loss即可

3. 如何访问线性回归的梯度?
python 复制代码
print(net[0].weight.grad)

可以放在for循环里面计算每一步的梯度

相关推荐
Master_oid1 天前
机器学习41:利用KNN算法实现手写数字识别
深度学习·算法·机器学习
小麦大叔1 天前
给嵌入式工程师推荐一个 FOC 学习项目
学习·fpga开发
云天AI实战派1 天前
ChatGPT / Realtime API / 智能体故障排查指南:语音模型、浏览器会话与权限问题全流程解决方案
人工智能·chatgpt
小新同学^O^1 天前
简单学习 --> Spring统一处理
java·学习·spring·统一功能处理
agicall.com1 天前
信电助 - 信创坐席盒 UB-B-XC 型号功能列表
人工智能·语音识别·信创电话助手·座机语音转文字·固话录音转文字
数据与后端架构提升之路1 天前
深度学习性能调优全景指南:数据、计算、显存、通信四大瓶颈的破局之道
深度学习·gpu·性能调优
夜影风1 天前
Prompt提示词工程化:用LangChain把提示词从字符串变成资产
人工智能·langchain·ai agent
土星云SaturnCloud1 天前
防爆边缘计算+工业视频智能分析:高危场景视觉安全闭环,落地架构与场景全解
服务器·人工智能·ai·边缘计算
周末也要写八哥1 天前
开发者如何快速实现一个NLP模型?
人工智能·自然语言处理
大龄码农有梦想1 天前
AI 智能体核心组件:Tool、MCP 与 Skills 的区别、标准与协同架构
人工智能·agent·智能体·ai工具·tool·mcp·skills