李沐54_循环神经网络RNN——自学笔记

潜变量自回归模型

使用潜变量ht总结过去信息。

困惑度perplexity

1.衡量一个语言模型的好坏可以用平均交叉熵

2.历史原因NLP使用困惑度exp(Π)来衡量,是平均每次可能选项

3.无穷大是最差,1是完美

梯度裁剪

1.迭代中计算这T个时间步的梯度,在反向传播过程中产生长度为O(T)的矩阵乘法链,导致数值不稳定

2.梯度裁剪可以有效预防梯度爆炸。如果梯度长度超过θ,那么拖影回长度θ

总结

1.循环神经网络的输出取决于当下输入和前一时间的隐变量

2.应用到语言模型中时,循环神经网络根据当前词预测下一次时刻词

3.通常使用困惑度来衡量语言模型的好坏

python 复制代码
相关推荐
zhaoyong2221 分钟前
PHP 中 end() 函数如何改变数组内部指针并影响后续遍历操作
jvm·数据库·python
最幸伏的人1 分钟前
PyCharm无限创建Python进程故障总结
windows·python·pycharm
a7963lin3 分钟前
Tailwind CSS如何实现溢出滚动处理_利用overflow-auto添加CSS滚动条
jvm·数据库·python
小妖6663 分钟前
js 实现python的SortedList有序集合
java·javascript·python
captain_AIouo4 分钟前
全方位降本增效,Captain AI重构OZON运营成本结构
大数据·人工智能·经验分享·重构·aigc
财迅通Ai5 分钟前
双轮驱动弱化周期,向上跃迁重构逻辑:海阳科技如何穿越行业迷雾实现战略进化?
人工智能·科技·重构·海阳科技
刘~浪地球6 分钟前
MongoDB与Python/Node.js实战:打造现代化的数据库应用
数据库·python·mongodb
2501_901200537 分钟前
Less如何优化CSS文件大小_利用压缩配置去除冗余样式
jvm·数据库·python
白羊by8 分钟前
YOLOv8 官方损失函数详解(按任务分类)
人工智能·深度学习·算法·yolo·分类
老王谈企服8 分钟前
【2026深度洞察】制造业供应链全链路可视化,未来有哪些技术发展方向? | 实在Agent企业级解决方案
人工智能·ai