李沐54_循环神经网络RNN——自学笔记

潜变量自回归模型

使用潜变量ht总结过去信息。

困惑度perplexity

1.衡量一个语言模型的好坏可以用平均交叉熵

2.历史原因NLP使用困惑度exp(Π)来衡量,是平均每次可能选项

3.无穷大是最差,1是完美

梯度裁剪

1.迭代中计算这T个时间步的梯度,在反向传播过程中产生长度为O(T)的矩阵乘法链,导致数值不稳定

2.梯度裁剪可以有效预防梯度爆炸。如果梯度长度超过θ,那么拖影回长度θ

总结

1.循环神经网络的输出取决于当下输入和前一时间的隐变量

2.应用到语言模型中时,循环神经网络根据当前词预测下一次时刻词

3.通常使用困惑度来衡量语言模型的好坏

python 复制代码
相关推荐
人工智能AI技术7 小时前
飞书版ClaudeCode,比龙虾好用多了
人工智能
Dream of maid7 小时前
Python基础 6 (面向对象)
开发语言·python
大嘴皮猴儿7 小时前
AI图片翻译技术解析:以跨马翻译为例看电商图片翻译的实际效果
大数据·数据库·人工智能·自动翻译·教育电商
郝学胜-神的一滴7 小时前
「栈与缩点的艺术」二叉树前序序列化合法性判定:从脑筋急转弯到工程实现
java·开发语言·数据结构·c++·python·算法
33三 三like7 小时前
基于GraphSAGE的养老服务知识图谱节点嵌入:从理论到落地实践
人工智能·知识图谱
自然语7 小时前
人工智能之数字生命 认知架构白皮书 第4章
人工智能·架构
mhkxbq7 小时前
AI与大数据时代:昆仑G5580、G5680 V2、G2280及泰山200服务器登场
大数据·服务器·人工智能
无心水8 小时前
22、Java开发避坑指南:日期时间、Spring核心与接口设计的最佳实践
java·开发语言·后端·python·spring·java.time·java时间处理
Hello.Reader8 小时前
双卡 A100 + Ollama 最终落地手册一键部署脚本、配置文件、预热脚本与 Python 客户端完整打包
开发语言·网络·python
vx_biyesheji00018 小时前
计算机毕业设计:Python网约车订单数据可视化系统 Django框架 可视化 数据大屏 数据分析 大数据 机器学习 深度学习(建议收藏)✅
大数据·python·机器学习·信息可视化·django·汽车·课程设计