李沐54_循环神经网络RNN——自学笔记

潜变量自回归模型

使用潜变量ht总结过去信息。

困惑度perplexity

1.衡量一个语言模型的好坏可以用平均交叉熵

2.历史原因NLP使用困惑度exp(Π)来衡量,是平均每次可能选项

3.无穷大是最差,1是完美

梯度裁剪

1.迭代中计算这T个时间步的梯度,在反向传播过程中产生长度为O(T)的矩阵乘法链,导致数值不稳定

2.梯度裁剪可以有效预防梯度爆炸。如果梯度长度超过θ,那么拖影回长度θ

总结

1.循环神经网络的输出取决于当下输入和前一时间的隐变量

2.应用到语言模型中时,循环神经网络根据当前词预测下一次时刻词

3.通常使用困惑度来衡量语言模型的好坏

python 复制代码
相关推荐
人机与认知实验室1 分钟前
神经网络、数学、理性思维真能实现通用智能吗?
人工智能·深度学习·神经网络·机器学习
I疯子3 分钟前
2026-04-07 打卡第 4 天
python
数据知道3 分钟前
claw-code 源码分析:Tool Pool 组装——默认策略、过滤、MCP 开关如何影响「可用工具面」?
python·claude code·claw code
信创DevOps先锋4 分钟前
模力方舟Moark:构建开源AI生态的“诺亚方舟“
人工智能·开源
Zzj_tju13 分钟前
Java 从入门到精通(十二):File 与 IO 流基础,为什么程序“读写文件”时总是容易出问题?
java·python·php
汽车搬砖家13 分钟前
vSOMEIP系列 -6: vsomeip python版部署,双机跨域通信(vsomeip - davinci AP someip)
python·汽车
小陈工18 分钟前
Python Web开发入门(十六):前后端分离架构设计——从“各自为政”到“高效协同”
开发语言·前端·数据库·人工智能·python
小真zzz23 分钟前
2026年免费AI PPT工具深度评测:多款实用工具推荐
人工智能·搜索引擎·ai·powerpoint·ppt
薛定猫AI28 分钟前
【脚本一键安装】Claude Code 终端 AI 编程助手:从零搭建你的智能开发环境
人工智能
IT 行者30 分钟前
Web逆向工程AI工具:WebScout MCP Server,给AI装上眼睛和手
人工智能·逆向·web逆向·mcp