李沐动手学习深度学习——3.6练习

本节直接实现了基于数学定义softmax运算的softmax函数。这可能会导致什么问题?提示:尝试计算exp(50)的大小。

可能存在超过计算机最大64位的存储,导致精度溢出,影响最终计算结果。

本节中的函数cross_entropy是根据交叉熵损失函数的定义实现的。它可能有什么问题?提示:考虑对数的定义域。

由于对数的定义域是(0, +无穷)。所以可能存在预测结果为0的情况,导致对数计算出错。

请想一个解决方案来解决上述两个问题。

使用归一化操作,可以解决softmax爆炸的问题。对于log函数后添加一个极小值防止计算错误。

返回概率最大的分类标签总是最优解吗?例如,医疗诊断场景下可以这样做吗?

不是的,本质上0.6或者0.4都是存在一定出现的概率,所以在医疗层面上不能使用最绝判断结果,需要阐述出现情况的概率。

假设我们使用softmax回归来预测下一个单词,可选取的单词数目过多可能会带来哪些问题?

当可选取的单词数目过多时,可能会导致模型参数数量过多,增加训练的复杂度。因为输出output的结果变多,模型计算量增大。

相关推荐
Mem0rin12 小时前
[LLM初步] Transformer 架构综述
人工智能·深度学习·transformer
2401_8322981012 小时前
混合部署成为行业主流,OpenClaw构建云端+本地双架构,平衡算力与隐私
大数据·人工智能
解局易否结局12 小时前
用 Profiler 追踪 ops-transformer 算子:GE 融合与 Runtime 调度的实战调试
人工智能·深度学习·transformer
stars-he12 小时前
Silvaco 仿真NMOS 差分对器件剖面结构图
笔记·学习
后端小肥肠12 小时前
一人公司如何用 WorkBuddy + Obsidian 搭一套长期记忆系统?
人工智能·aigc·agent
RFID舜识物联网12 小时前
破局“信息孤岛”:RFID耐高温标签重塑汽车喷漆车间可视化
大数据·人工智能·科技·物联网·安全·汽车
05大叔12 小时前
预训练模型演化,提示词工程
人工智能·深度学习·自然语言处理
BU摆烂会噶12 小时前
【LangGraph】House_Agent 实战(一):架构与环境配置
人工智能·vscode·python·架构·langchain·人机交互
小小测试开发12 小时前
OpenAI 模型攻克离散几何 80 年难题:Erdős 单位距离猜想被 AI 证明
人工智能·算法·机器学习
魔法阵维护师12 小时前
从零开发游戏需要学习的c#模块,第十二章(rpg小游戏入门,中篇,金币收集与ui显示)
学习·游戏·c#