李沐54_循环神经网络RNN——自学笔记

潜变量自回归模型

使用潜变量ht总结过去信息。

困惑度perplexity

1.衡量一个语言模型的好坏可以用平均交叉熵

2.历史原因NLP使用困惑度exp(Π)来衡量,是平均每次可能选项

3.无穷大是最差,1是完美

梯度裁剪

1.迭代中计算这T个时间步的梯度,在反向传播过程中产生长度为O(T)的矩阵乘法链,导致数值不稳定

2.梯度裁剪可以有效预防梯度爆炸。如果梯度长度超过θ,那么拖影回长度θ

总结

1.循环神经网络的输出取决于当下输入和前一时间的隐变量

2.应用到语言模型中时,循环神经网络根据当前词预测下一次时刻词

3.通常使用困惑度来衡量语言模型的好坏

python 复制代码
相关推荐
bitbrowser36 分钟前
哪些指纹浏览器支持模拟SSL指纹
网络·python·网络协议·ssl
说私域42 分钟前
从“高密度占有”到“点状渗透”:论“开源AI智能名片链动2+1模式”在S2B2C商城小程序中的渠道革新
人工智能·小程序
limenga1022 小时前
TensorFlow Keras:快速搭建神经网络模型
人工智能·python·深度学习·神经网络·机器学习·tensorflow
心软小念2 小时前
用Python requests库玩转接口自动化测试!测试工程师的实战秘籍
java·开发语言·python
sanggou3 小时前
【Python爬虫】手把手教你从零开始写爬虫,小白也能轻松学会!(附完整源码)
开发语言·爬虫·python
KG_LLM图谱增强大模型4 小时前
Vgent:基于图的多模态检索推理增强生成框架GraphRAG,突破长视频理解瓶颈
大数据·人工智能·算法·大模型·知识图谱·多模态
AKAMAI4 小时前
企业如何平衡AI创新与风险
人工智能·云原生·云计算
geng_zhaoying4 小时前
在VPython中使用向量计算3D物体移动
python·3d·vpython
半tour费4 小时前
TextCNN-NPU移植与性能优化实战
python·深度学习·分类·cnn·华为云
普通网友4 小时前
使用Flask快速搭建轻量级Web应用
jvm·数据库·python