李沐54_循环神经网络RNN——自学笔记

潜变量自回归模型

使用潜变量ht总结过去信息。

困惑度perplexity

1.衡量一个语言模型的好坏可以用平均交叉熵

2.历史原因NLP使用困惑度exp(Π)来衡量,是平均每次可能选项

3.无穷大是最差,1是完美

梯度裁剪

1.迭代中计算这T个时间步的梯度,在反向传播过程中产生长度为O(T)的矩阵乘法链,导致数值不稳定

2.梯度裁剪可以有效预防梯度爆炸。如果梯度长度超过θ,那么拖影回长度θ

总结

1.循环神经网络的输出取决于当下输入和前一时间的隐变量

2.应用到语言模型中时,循环神经网络根据当前词预测下一次时刻词

3.通常使用困惑度来衡量语言模型的好坏

python 复制代码
相关推荐
凤希AI伴侣几秒前
数据架构升级:为API同步铺平道路-凤希AI伴侣-2025年12月27日
人工智能·凤希ai伴侣
Blossom.118几秒前
多模态视频理解实战:从0到1构建视频-文本对齐大模型
人工智能·python·深度学习·神经网络·重构·音视频·知识图谱
轻竹办公PPT2 分钟前
2026 年年度工作计划 PPT:AI 自动生成方案横向对比
人工智能·python·powerpoint
最晚的py2 分钟前
激活函数对比大全
深度学习·激活函数
执笔论英雄3 分钟前
【RL】op_compute_log_probs 计算过程
人工智能·pytorch·python
GISer_Jing11 分钟前
Taro打造电商项目实战
前端·javascript·人工智能·aigc·taro
liliangcsdn11 分钟前
SD稳定扩散模型理论基础的探索
人工智能·机器学习
Hiweir ·12 分钟前
ROS Noetic教程------VSCode创建ROS话题通讯--发布方的简单流程
vscode·python·ros noetic·ros noetic教程
deephub18 分钟前
dLLM:复用自回归模型权重快速训练扩散语言模型
人工智能·python·语言模型·大语言模型
中國龍在廣州24 分钟前
2025,具身智能正在惩罚“持有者”
人工智能·深度学习·算法·自然语言处理·chatgpt