李沐54_循环神经网络RNN——自学笔记

潜变量自回归模型

使用潜变量ht总结过去信息。

困惑度perplexity

1.衡量一个语言模型的好坏可以用平均交叉熵

2.历史原因NLP使用困惑度exp(Π)来衡量,是平均每次可能选项

3.无穷大是最差,1是完美

梯度裁剪

1.迭代中计算这T个时间步的梯度,在反向传播过程中产生长度为O(T)的矩阵乘法链,导致数值不稳定

2.梯度裁剪可以有效预防梯度爆炸。如果梯度长度超过θ,那么拖影回长度θ

总结

1.循环神经网络的输出取决于当下输入和前一时间的隐变量

2.应用到语言模型中时,循环神经网络根据当前词预测下一次时刻词

3.通常使用困惑度来衡量语言模型的好坏

python 复制代码
相关推荐
神仙别闹几秒前
基于Java(JSP)+MySQL实现深度学习的音乐推荐系统
java·深度学习·mysql
好脾气先生6 分钟前
[论文解析]Mip-Splatting: Alias-free 3D Gaussian Splatting
人工智能·计算机视觉·3d·三维重建
国际云,接待7 分钟前
[特殊字符]服务器性能优化:从硬件到AI的全栈调优指南
运维·服务器·人工智能·阿里云·性能优化·架构·云计算
szial9 分钟前
如何在 Conda 环境中降级 Python 版本:详细指南
python·conda
盖瑞理21 分钟前
第八部分:缓解 RAG 中的幻觉
人工智能·rag·ai agent
captain_keating27 分钟前
使用matplotlib绘制Raincloud图/云雨图/柱状图/小提琴图
python·matplotlib
leolee1827 分钟前
PyInstaller 打包pc
python
AIGC方案28 分钟前
常见的机器视觉通用软件
人工智能·机器视觉
站大爷IP38 分钟前
Python frozenset 集合详解:不可变集合的终极指南
python
DisonTangor39 分钟前
月之暗面开源 Kimi-Audio-7B-Instruct,同时支持语音识别和语音生成
人工智能·开源·aigc·语音识别