李沐54_循环神经网络RNN——自学笔记

潜变量自回归模型

使用潜变量ht总结过去信息。

困惑度perplexity

1.衡量一个语言模型的好坏可以用平均交叉熵

2.历史原因NLP使用困惑度exp(Π)来衡量,是平均每次可能选项

3.无穷大是最差,1是完美

梯度裁剪

1.迭代中计算这T个时间步的梯度,在反向传播过程中产生长度为O(T)的矩阵乘法链,导致数值不稳定

2.梯度裁剪可以有效预防梯度爆炸。如果梯度长度超过θ,那么拖影回长度θ

总结

1.循环神经网络的输出取决于当下输入和前一时间的隐变量

2.应用到语言模型中时,循环神经网络根据当前词预测下一次时刻词

3.通常使用困惑度来衡量语言模型的好坏

python 复制代码
相关推荐
用户78937733908534 分钟前
Docker 部署踩坑记录:从“构建失败”到“服务跑通”,以及为什么数据被清空了
python·docker
再玩一会儿看代码6 分钟前
如何理解神经网络中的权重参数?从一张图看懂模型参数量计算
人工智能·经验分享·python·深度学习·神经网络·机器学习
2301_779622417 分钟前
mysql如何通过主从备份实现读写分离_配置mysql架构模式
jvm·数据库·python
炜宏资料库11 分钟前
【专家观点】河钢数字:工业AI质检助力生产制造企业持续提质降本增效
人工智能·制造
核数聚13 分钟前
给四足机器人装上 “智慧大脑”!核数聚具身数据集,让园区巡检又快又稳
人工智能·机器学习·ai·机器人
m0_7411733314 分钟前
HTML5中WebSocket在弱网环境下的延迟抖动算法补偿
jvm·数据库·python
l1t14 分钟前
astral-sh发布的musl和gnu版本standalone python 性能比较
开发语言·python
2401_8714928519 分钟前
Pandas如何做时间差对齐_pd.merge_asof按最近的时间戳合并两表
jvm·数据库·python
wuxinyan12323 分钟前
大模型学习之路007:RAG 零基础入门教程(第四篇):生成侧核心技术与大模型集成
人工智能·学习·rag
亚鲁鲁25 分钟前
02-启动流程
人工智能