李沐动手学习深度学习——3.6练习

本节直接实现了基于数学定义softmax运算的softmax函数。这可能会导致什么问题?提示:尝试计算exp(50)的大小。

可能存在超过计算机最大64位的存储,导致精度溢出,影响最终计算结果。

本节中的函数cross_entropy是根据交叉熵损失函数的定义实现的。它可能有什么问题?提示:考虑对数的定义域。

由于对数的定义域是(0, +无穷)。所以可能存在预测结果为0的情况,导致对数计算出错。

请想一个解决方案来解决上述两个问题。

使用归一化操作,可以解决softmax爆炸的问题。对于log函数后添加一个极小值防止计算错误。

返回概率最大的分类标签总是最优解吗?例如,医疗诊断场景下可以这样做吗?

不是的,本质上0.6或者0.4都是存在一定出现的概率,所以在医疗层面上不能使用最绝判断结果,需要阐述出现情况的概率。

假设我们使用softmax回归来预测下一个单词,可选取的单词数目过多可能会带来哪些问题?

当可选取的单词数目过多时,可能会导致模型参数数量过多,增加训练的复杂度。因为输出output的结果变多,模型计算量增大。

相关推荐
春日见17 小时前
在虚拟机上面无法正启动机械臂的控制launch文件
linux·运维·服务器·人工智能·驱动开发·ubuntu
————A18 小时前
强化学习----->轨迹、回报、折扣因子和回合
人工智能·python
CareyWYR18 小时前
每周AI论文速递(251215-251219)
人工智能
做cv的小昊18 小时前
【TJU】信息检索与分析课程笔记和练习(1)认识文献
经验分享·笔记·学习·搜索引擎·全文检索
weixin_4093831218 小时前
在kaggle训练Qwen/Qwen2.5-1.5B-Instruct 通过中二时期qq空间记录作为训练数据 训练出中二的模型为目标 第一次训练 好像太二了
人工智能·深度学习·机器学习·qwen
JoannaJuanCV18 小时前
自动驾驶—CARLA仿真(22)manual_control_steeringwheel demo
人工智能·自动驾驶·pygame·carla
余俊晖19 小时前
使用Agent做本体匹配的架构设计
人工智能·语言模型·自然语言处理
科士威传动19 小时前
方形滚珠导轨如何保障高速定位精度?
人工智能·科技·机器人·自动化·制造
再睡一夏就好19 小时前
深入Linux线程:从轻量级进程到双TCB架构
linux·运维·服务器·c++·学习·架构·线程
蒙奇D索大19 小时前
【11408学习记录】考研英语长难句拆解三步法:三步拆解2020年真题,攻克阅读难点
笔记·学习·考研·改行学it