李沐54_循环神经网络RNN——自学笔记

潜变量自回归模型

使用潜变量ht总结过去信息。

困惑度perplexity

1.衡量一个语言模型的好坏可以用平均交叉熵

2.历史原因NLP使用困惑度exp(Π)来衡量,是平均每次可能选项

3.无穷大是最差,1是完美

梯度裁剪

1.迭代中计算这T个时间步的梯度,在反向传播过程中产生长度为O(T)的矩阵乘法链,导致数值不稳定

2.梯度裁剪可以有效预防梯度爆炸。如果梯度长度超过θ,那么拖影回长度θ

总结

1.循环神经网络的输出取决于当下输入和前一时间的隐变量

2.应用到语言模型中时,循环神经网络根据当前词预测下一次时刻词

3.通常使用困惑度来衡量语言模型的好坏

python 复制代码
相关推荐
源码之屋1 分钟前
计算机毕业设计:新能源汽车多维度数据分析系统 Django框架 Scrapy爬虫 可视化 数据分析 大数据 大模型 机器学习(建议收藏)✅
大数据·python·scrapy·django·汽车·课程设计·美食
加密棱镜3 分钟前
OpenClaw 3.28 版本降级教程 规避 axios 恶意依赖风险
人工智能·深度学习·安全·openclaw
罗罗攀3 分钟前
PyTorch学习笔记|单层神经网络
人工智能·pytorch·笔记·神经网络·学习
skywalk81633 分钟前
Kotti Next:使用FastAPI+Vue 3构建的现代无头CMS-Kotti CMS的精神继承者(使用WorkBuddy AI自动编程)
前端·vue.js·人工智能·fastapi·kotti
好好学习,天天向上~4 分钟前
一套从 HTTP 抓取到动态页面爬取的 Python 全栈爬虫框架(附安装与实战)
爬虫·python·http
aircrushin6 分钟前
三月AI十件大事盘点
人工智能
CDA数据分析师干货分享7 分钟前
统计学本科生CDA数据分析师二级备考经验分享
大数据·人工智能·经验分享·数据分析·cda证书·cda数据分析师
大数据新鸟8 分钟前
Java 泛型(Generic)完整使用指南
java·windows·python
Cosolar1 小时前
RAG(检索增强生成)面试指南
人工智能·aigc·openai
90后的晨仔1 小时前
MP4 转 GIF 完整技术指南:从原理到实践
人工智能