李沐54_循环神经网络RNN——自学笔记

潜变量自回归模型

使用潜变量ht总结过去信息。

困惑度perplexity

1.衡量一个语言模型的好坏可以用平均交叉熵

2.历史原因NLP使用困惑度exp(Π)来衡量,是平均每次可能选项

3.无穷大是最差,1是完美

梯度裁剪

1.迭代中计算这T个时间步的梯度,在反向传播过程中产生长度为O(T)的矩阵乘法链,导致数值不稳定

2.梯度裁剪可以有效预防梯度爆炸。如果梯度长度超过θ,那么拖影回长度θ

总结

1.循环神经网络的输出取决于当下输入和前一时间的隐变量

2.应用到语言模型中时,循环神经网络根据当前词预测下一次时刻词

3.通常使用困惑度来衡量语言模型的好坏

python 复制代码
相关推荐
高德开放平台13 小时前
高德开放平台JS API插件支持WebMCP:重新定义AI与网页交互的新时代
javascript·人工智能·开发者·高德地图
aircrushin13 小时前
开源大模型涨价策略分析:Llama 3.5 与 GLM-5 的商业化博弈
人工智能
AI码上来13 小时前
小智Pro:给小智装上眼睛,无需设备摄像头,MCP实现
人工智能
诚思报告YH13 小时前
肽类治疗药物市场洞察:2026-2032年复合增长率(CAGR)为8.4%
大数据·人工智能
量子-Alex13 小时前
【大模型智能体】作为数字原子与分子的AI智能体:大型语言模型在计算生物物理领域开启新纪元
人工智能·语言模型·自然语言处理
MediaTea13 小时前
Python:生成器对象的扩展接口
开发语言·网络·python
jerryinwuhan13 小时前
LY模型流程
人工智能·深度学习·机器学习
诚思报告YH13 小时前
血浆分馏产品市场前瞻:2026-2032年复合增长率(CAGR)为7.0%
人工智能
康康的AI博客13 小时前
AI驱动的法律智能化:通过多模型平台提升合同审查与法规解读的精准度
大数据·人工智能
码云数智-大飞13 小时前
Clawdbot 的“永久记忆”机制探秘:如何让 AI 记住每一次对话
人工智能