李沐54_循环神经网络RNN——自学笔记

潜变量自回归模型

使用潜变量ht总结过去信息。

困惑度perplexity

1.衡量一个语言模型的好坏可以用平均交叉熵

2.历史原因NLP使用困惑度exp(Π)来衡量,是平均每次可能选项

3.无穷大是最差,1是完美

梯度裁剪

1.迭代中计算这T个时间步的梯度,在反向传播过程中产生长度为O(T)的矩阵乘法链,导致数值不稳定

2.梯度裁剪可以有效预防梯度爆炸。如果梯度长度超过θ,那么拖影回长度θ

总结

1.循环神经网络的输出取决于当下输入和前一时间的隐变量

2.应用到语言模型中时,循环神经网络根据当前词预测下一次时刻词

3.通常使用困惑度来衡量语言模型的好坏

python 复制代码
相关推荐
AC赳赳老秦7 小时前
政企内网落地:OpenClaw 离线环境深度适配方案,无外网场景下本地化模型对接与全功能使用
java·大数据·运维·python·自动化·deepseek·openclaw
星越华夏7 小时前
python 将相对路径变成绝对路径
python
l1t7 小时前
mingw和Linux中的gcc和llvm编译器编译的pocketpy执行同一个python脚本的不同效果
linux·运维·python
NOCSAH8 小时前
统好 AI:以 AI 技术重构传统 ERP 核心能力
人工智能·重构
砚底藏山河8 小时前
股票数据API接口:如何获取股票历历史分时KDJ数据
java·python·maven
2501_945837438 小时前
OpenClaw:不止聊天,能动手执行的开源 AI 智能体
人工智能
web3.08889998 小时前
天猫API接口详解:商品详情与关键词搜索商品指南及代码示例
python·json
ITyunwei09878 小时前
团队管理与人才发展:如何打造一支“召之即来,来之能战”的铁军?
大数据·运维·人工智能
Csvn8 小时前
Python 性能优化与 Profiling 工具
后端·python
kay_5458 小时前
YOLO26改进| 特征融合 | 小波变换的多尺度特征融合
人工智能·目标检测·计算机视觉·目标跟踪·论文·yolo26·yolo26改进