李沐54_循环神经网络RNN——自学笔记

潜变量自回归模型

使用潜变量ht总结过去信息。

困惑度perplexity

1.衡量一个语言模型的好坏可以用平均交叉熵

2.历史原因NLP使用困惑度exp(Π)来衡量,是平均每次可能选项

3.无穷大是最差,1是完美

梯度裁剪

1.迭代中计算这T个时间步的梯度,在反向传播过程中产生长度为O(T)的矩阵乘法链,导致数值不稳定

2.梯度裁剪可以有效预防梯度爆炸。如果梯度长度超过θ,那么拖影回长度θ

总结

1.循环神经网络的输出取决于当下输入和前一时间的隐变量

2.应用到语言模型中时,循环神经网络根据当前词预测下一次时刻词

3.通常使用困惑度来衡量语言模型的好坏

python 复制代码
相关推荐
syounger2 分钟前
当S/4HANA不再是唯一答案:CIO如何重新定义ERP转型路径
人工智能
yhdata3 分钟前
聚焦半导体关键部件:磁悬浮无轴泵市场前景明朗,2032年规模逼近15.12亿元
大数据·人工智能
asdzx673 分钟前
使用 Python 比较 PDF 文件差异(简单方法)
python·pdf·文档比较
devnullcoffee5 分钟前
亚马逊ASIN数据批量采集技术选型:工具 vs 自建爬虫 vs Scrape API vs AI Agent完整对比
人工智能·爬虫·agent·亚马逊运营·openclaw·亚马逊 asin 数据采集
Tina姐5 分钟前
3D Slicer新模型CADS-自动分割全身167个器官
人工智能·深度学习
AI人工智能+7 分钟前
网约车运输证识别技术:深度融合计算机视觉与自然语言处理技术,实现对运输证全字段的高精度定位、识别与结构化提取
深度学习·计算机视觉·ocr·网约车运输证识别
亥时科技8 分钟前
开源赋能低空经济:AI 无人机一体化平台如何破解行业应用难题
人工智能·开源·无人机
财迅通Ai8 分钟前
莎普爱思高溢价收购上海勤礼100%股权:转型关键落子与多重风险交织
大数据·人工智能·区块链·莎普爱思
我爱我家8829 分钟前
亚洲艺术电影节携澳门文化亮相深圳
人工智能·物联网·算法·区块链·爬山算法