李沐54_循环神经网络RNN——自学笔记

潜变量自回归模型

使用潜变量ht总结过去信息。

困惑度perplexity

1.衡量一个语言模型的好坏可以用平均交叉熵

2.历史原因NLP使用困惑度exp(Π)来衡量,是平均每次可能选项

3.无穷大是最差,1是完美

梯度裁剪

1.迭代中计算这T个时间步的梯度,在反向传播过程中产生长度为O(T)的矩阵乘法链,导致数值不稳定

2.梯度裁剪可以有效预防梯度爆炸。如果梯度长度超过θ,那么拖影回长度θ

总结

1.循环神经网络的输出取决于当下输入和前一时间的隐变量

2.应用到语言模型中时,循环神经网络根据当前词预测下一次时刻词

3.通常使用困惑度来衡量语言模型的好坏

python 复制代码
相关推荐
新加坡内哥谈技术10 小时前
机器人出租车与郊区生活
人工智能·生活
喵了几个咪10 小时前
游戏字体渲染
开发语言·python·游戏
CareyWYR10 小时前
每周AI论文速递(251117-251121)
人工智能
专注数据的痴汉10 小时前
「数据获取」《中国农业年鉴》(1949-2022)
人工智能
Blossom.11810 小时前
RLHF的“炼狱“突围:从PPO到DPO的工业级对齐实战
大数据·人工智能·分布式·python·算法·机器学习·边缘计算
vvoennvv10 小时前
【Python TensorFlow】CNN-BiLSTM时序预测 卷积神经网络-双向长短期记忆神经网络组合模型(附代码)
python·神经网络·cnn·tensorflow·lstm·bilstm
数据知道11 小时前
【Flask】一文掌握 Flask 基础用法
数据库·后端·python·flask·python web
Light6011 小时前
MCP协议:CAD设计的“AI大脑”革命——从图纸到智能决策的全链路跃迁
人工智能·工业4.0·mcp协议·cad智能化·ai设计自动化
鹿鸣天涯11 小时前
智能世界2035:探索未知,跃见未来
人工智能
火星技术11 小时前
【 AI 智能换装开源】
人工智能