李沐54_循环神经网络RNN——自学笔记

潜变量自回归模型

使用潜变量ht总结过去信息。

困惑度perplexity

1.衡量一个语言模型的好坏可以用平均交叉熵

2.历史原因NLP使用困惑度exp(Π)来衡量,是平均每次可能选项

3.无穷大是最差,1是完美

梯度裁剪

1.迭代中计算这T个时间步的梯度,在反向传播过程中产生长度为O(T)的矩阵乘法链,导致数值不稳定

2.梯度裁剪可以有效预防梯度爆炸。如果梯度长度超过θ,那么拖影回长度θ

总结

1.循环神经网络的输出取决于当下输入和前一时间的隐变量

2.应用到语言模型中时,循环神经网络根据当前词预测下一次时刻词

3.通常使用困惑度来衡量语言模型的好坏

python 复制代码
相关推荐
TG_yunshuguoji几秒前
阿里云代理商:企业级AI应用 阿里云GPU服务器运行DeepSeek V4优化方案
人工智能·阿里云·云计算·ai智能体·deepseek-v4
月诸清酒1 分钟前
59-260512 AI 科技日报(Gemini 视频模型曝光、DeepSeek V4 限时免费、OpenAI 布局企业部署)
人工智能
一起逃去看海吧2 分钟前
Function Calling
python
孟陬2 分钟前
Node.js v26.0 新增超甜的语法糖 getOrInsert / getOrInsertComputed 介绍
python·node.js
javajenius2 分钟前
Chroma:AI应用的开源向量数据基础设施
人工智能·其他·开源
m0_372257022 分钟前
BM25 + Embedding 混合检索 实现
人工智能·深度学习·机器学习·embedding
Deepoch2 分钟前
Deepoc 具身模型赋能无人机群组野外自主作业研究
人工智能·无人机·具身模型·deepoc
techdashen3 分钟前
Cloudflare Workflows V2:当 AI Agent 成为基础设施,调度系统如何重新设计
人工智能
wmm_会飞的@鱼4 分钟前
FlexSim-基于SLP方法的A汽车企业总装车间布局优化
前端·数据结构·数据库·python·数学建模·汽车
凯瑟琳.奥古斯特5 分钟前
深度学习入门:用PyTorch实现MNIST手写数字识别
pytorch·python·深度学习