李沐54_循环神经网络RNN——自学笔记

潜变量自回归模型

使用潜变量ht总结过去信息。

困惑度perplexity

1.衡量一个语言模型的好坏可以用平均交叉熵

2.历史原因NLP使用困惑度exp(Π)来衡量,是平均每次可能选项

3.无穷大是最差,1是完美

梯度裁剪

1.迭代中计算这T个时间步的梯度,在反向传播过程中产生长度为O(T)的矩阵乘法链,导致数值不稳定

2.梯度裁剪可以有效预防梯度爆炸。如果梯度长度超过θ,那么拖影回长度θ

总结

1.循环神经网络的输出取决于当下输入和前一时间的隐变量

2.应用到语言模型中时,循环神经网络根据当前词预测下一次时刻词

3.通常使用困惑度来衡量语言模型的好坏

python 复制代码
相关推荐
TG_yunshuguoji1 天前
阿里云代理商:企业级AI应用 阿里云GPU服务器运行DeepSeek V4优化方案
人工智能·阿里云·云计算·ai智能体·deepseek-v4
月诸清酒1 天前
59-260512 AI 科技日报(Gemini 视频模型曝光、DeepSeek V4 限时免费、OpenAI 布局企业部署)
人工智能
一起逃去看海吧1 天前
Function Calling
python
孟陬1 天前
Node.js v26.0 新增超甜的语法糖 getOrInsert / getOrInsertComputed 介绍
python·node.js
javajenius1 天前
Chroma:AI应用的开源向量数据基础设施
人工智能·其他·开源
m0_372257021 天前
BM25 + Embedding 混合检索 实现
人工智能·深度学习·机器学习·embedding
Deepoch1 天前
Deepoc 具身模型赋能无人机群组野外自主作业研究
人工智能·无人机·具身模型·deepoc
techdashen1 天前
Cloudflare Workflows V2:当 AI Agent 成为基础设施,调度系统如何重新设计
人工智能
wmm_会飞的@鱼1 天前
FlexSim-基于SLP方法的A汽车企业总装车间布局优化
前端·数据结构·数据库·python·数学建模·汽车
凯瑟琳.奥古斯特1 天前
深度学习入门:用PyTorch实现MNIST手写数字识别
pytorch·python·深度学习