李沐54_循环神经网络RNN——自学笔记

潜变量自回归模型

使用潜变量ht总结过去信息。

困惑度perplexity

1.衡量一个语言模型的好坏可以用平均交叉熵

2.历史原因NLP使用困惑度exp(Π)来衡量,是平均每次可能选项

3.无穷大是最差,1是完美

梯度裁剪

1.迭代中计算这T个时间步的梯度,在反向传播过程中产生长度为O(T)的矩阵乘法链,导致数值不稳定

2.梯度裁剪可以有效预防梯度爆炸。如果梯度长度超过θ,那么拖影回长度θ

总结

1.循环神经网络的输出取决于当下输入和前一时间的隐变量

2.应用到语言模型中时,循环神经网络根据当前词预测下一次时刻词

3.通常使用困惑度来衡量语言模型的好坏

python 复制代码
相关推荐
秦时明月之君临天下11 分钟前
Python递归获取目录大小
python
汗流浃背了吧,老弟!12 分钟前
SFT(监督式微调)
人工智能
zl_vslam12 分钟前
SLAM中的非线性优-3D图优化之相对位姿Between Factor位姿图优化(十三)
人工智能·算法·计算机视觉·3d
Xy-unu17 分钟前
Analog optical computer for AI inference and combinatorial optimization
论文阅读·人工智能
小马过河R20 分钟前
混元世界模型1.5架构原理初探
人工智能·语言模型·架构·nlp
三万棵雪松22 分钟前
【AI小智后端部分(一)】
人工智能·python·ai小智
编程小Y23 分钟前
Adobe Animate 2024:2D 矢量动画与交互创作利器下载安装教程
人工智能
laplace012324 分钟前
Part 3:模型调用、记忆管理与工具调用流程(LangChain 1.0)笔记(Markdown)
开发语言·人工智能·笔记·python·langchain·prompt
mys551831 分钟前
杨建允:AI搜索优化对汽车服务行业获客的影响
人工智能·aigc·geo·ai搜索优化·ai引擎优化