李沐54_循环神经网络RNN——自学笔记

潜变量自回归模型

使用潜变量ht总结过去信息。

困惑度perplexity

1.衡量一个语言模型的好坏可以用平均交叉熵

2.历史原因NLP使用困惑度exp(Π)来衡量,是平均每次可能选项

3.无穷大是最差,1是完美

梯度裁剪

1.迭代中计算这T个时间步的梯度,在反向传播过程中产生长度为O(T)的矩阵乘法链,导致数值不稳定

2.梯度裁剪可以有效预防梯度爆炸。如果梯度长度超过θ,那么拖影回长度θ

总结

1.循环神经网络的输出取决于当下输入和前一时间的隐变量

2.应用到语言模型中时,循环神经网络根据当前词预测下一次时刻词

3.通常使用困惑度来衡量语言模型的好坏

python 复制代码
相关推荐
wp123_12 分钟前
反激应用1:1贴片耦合电感选择:Coilcraft LPD3015-473MR vs 国产兼容 TONEVEE CDD3015-473M
人工智能·制造
不错就是对2 分钟前
【agent-lightning】 - 2_使用 Agent-lightning 训练第一个智能体
人工智能·深度学习·神经网络·自然语言处理·chatgpt·transformer·vllm
zhengfei6115 分钟前
AI渗透工具—Shannon完全自主的AI渗透测试工具
人工智能·深度学习·web安全·知识图谱·测试覆盖率·安全性测试·威胁分析
愚公搬代码8 分钟前
【愚公系列】《AI+直播营销》004-重视直播营销,打造直播竞争力(直播活动的基本原理)
人工智能
哥本哈士奇13 分钟前
简单的神经网络计算过程 - 正负判断
人工智能·深度学习·神经网络
自动驾驶小学生18 分钟前
Transformer和LLM前沿内容(3):LLM Post-Training
人工智能·深度学习·transformer
imbackneverdie23 分钟前
从零到一,如何用AI高效构建国自然申请书初稿?
人工智能·自然语言处理·aigc·科研·ai写作·学术·国家自然科学基金
Mike_detailing23 分钟前
Tensors (张量)
人工智能·pytorch·深度学习
三木今天学习了嘛25 分钟前
【Archived 2025】
人工智能
weixin_4331793330 分钟前
Python - word jumble游戏
开发语言·python