李沐54_循环神经网络RNN——自学笔记

潜变量自回归模型

使用潜变量ht总结过去信息。

困惑度perplexity

1.衡量一个语言模型的好坏可以用平均交叉熵

2.历史原因NLP使用困惑度exp(Π)来衡量,是平均每次可能选项

3.无穷大是最差,1是完美

梯度裁剪

1.迭代中计算这T个时间步的梯度,在反向传播过程中产生长度为O(T)的矩阵乘法链,导致数值不稳定

2.梯度裁剪可以有效预防梯度爆炸。如果梯度长度超过θ,那么拖影回长度θ

总结

1.循环神经网络的输出取决于当下输入和前一时间的隐变量

2.应用到语言模型中时,循环神经网络根据当前词预测下一次时刻词

3.通常使用困惑度来衡量语言模型的好坏

python 复制代码
相关推荐
A__tao3 分钟前
JSON 转 Java 实体类工具(支持嵌套与注释解析)
java·python·json
Data-Miner4 分钟前
10个最佳表格Agent工具深度评测:让数据处理效率翻倍的智能助手
人工智能
zhouwy11319 分钟前
Python 基础语法笔记:从入门到进阶的系统学习
python
threelab19 分钟前
Three.js 咖啡杯烟雾效果 | 三维可视化 / AI 提示词
开发语言·javascript·人工智能
地理探险家21 分钟前
做植物病害识别,数据我帮你整理好了(叶片数据合集+使用建议)
人工智能·深度学习·数据集·植物·病害
生物信息与育种27 分钟前
Plant Com | 华中农大&上海交大联合开发植物核心启动子AI从头设计框架TargetGAN
人工智能
生成论实验室30 分钟前
《事件关系阴阳博弈动力学:识势应势之道》第七篇:社会与情感关系——连接、表达与共鸣
人工智能·算法·架构·交互·创业创新
1104.北光c°30 分钟前
【AI核心概念讲解】一口气搞懂 Agent:干翻传统后端!自主循环决策的秘密,ReAct 与 Plan-and-Execute 范式
java·人工智能·程序人生·ai·agent·react·智能体
MClink32 分钟前
CC Switch:一个工具管住所有 AI 编程助手,Claude Code、Codex、Gemini CLI 一键切换
人工智能·mcp