李沐54_循环神经网络RNN——自学笔记

潜变量自回归模型

使用潜变量ht总结过去信息。

困惑度perplexity

1.衡量一个语言模型的好坏可以用平均交叉熵

2.历史原因NLP使用困惑度exp(Π)来衡量,是平均每次可能选项

3.无穷大是最差,1是完美

梯度裁剪

1.迭代中计算这T个时间步的梯度,在反向传播过程中产生长度为O(T)的矩阵乘法链,导致数值不稳定

2.梯度裁剪可以有效预防梯度爆炸。如果梯度长度超过θ,那么拖影回长度θ

总结

1.循环神经网络的输出取决于当下输入和前一时间的隐变量

2.应用到语言模型中时,循环神经网络根据当前词预测下一次时刻词

3.通常使用困惑度来衡量语言模型的好坏

python 复制代码
相关推荐
AC赳赳老秦8 分钟前
政企内网落地:OpenClaw 离线环境深度适配方案,无外网场景下本地化模型对接与全功能使用
java·大数据·运维·python·自动化·deepseek·openclaw
星越华夏22 分钟前
python 将相对路径变成绝对路径
python
l1t25 分钟前
mingw和Linux中的gcc和llvm编译器编译的pocketpy执行同一个python脚本的不同效果
linux·运维·python
NOCSAH31 分钟前
统好 AI:以 AI 技术重构传统 ERP 核心能力
人工智能·重构
砚底藏山河36 分钟前
股票数据API接口:如何获取股票历历史分时KDJ数据
java·python·maven
2501_9458374340 分钟前
OpenClaw:不止聊天,能动手执行的开源 AI 智能体
人工智能
web3.088899940 分钟前
天猫API接口详解:商品详情与关键词搜索商品指南及代码示例
python·json
ITyunwei098743 分钟前
团队管理与人才发展:如何打造一支“召之即来,来之能战”的铁军?
大数据·运维·人工智能
Csvn43 分钟前
Python 性能优化与 Profiling 工具
后端·python
kay_5451 小时前
YOLO26改进| 特征融合 | 小波变换的多尺度特征融合
人工智能·目标检测·计算机视觉·目标跟踪·论文·yolo26·yolo26改进