李沐54_循环神经网络RNN——自学笔记

潜变量自回归模型

使用潜变量ht总结过去信息。

困惑度perplexity

1.衡量一个语言模型的好坏可以用平均交叉熵

2.历史原因NLP使用困惑度exp(Π)来衡量,是平均每次可能选项

3.无穷大是最差,1是完美

梯度裁剪

1.迭代中计算这T个时间步的梯度,在反向传播过程中产生长度为O(T)的矩阵乘法链,导致数值不稳定

2.梯度裁剪可以有效预防梯度爆炸。如果梯度长度超过θ,那么拖影回长度θ

总结

1.循环神经网络的输出取决于当下输入和前一时间的隐变量

2.应用到语言模型中时,循环神经网络根据当前词预测下一次时刻词

3.通常使用困惑度来衡量语言模型的好坏

python 复制代码
相关推荐
mahtengdbb1几秒前
GDSAFusion全局-局部双尺度自适应融合改进YOLOv26多尺度特征表达能力
人工智能·深度学习·yolo
BitaHub20245 分钟前
AI 也能按设计规范出图?Qwen-Image-2512 本地海报生成实战
人工智能·设计规范·bitahub
Rsun0455111 分钟前
15、Java 观察者模式从入门到实战
java·python·模板方法模式
Acland24094011 分钟前
基于 PyTorch 的 Fashion-MNIST CNN 分类模型
人工智能·pytorch·分类
w_t_y_y12 分钟前
Agent 开发框架(二)CrewAI
人工智能
2501_9458374313 分钟前
OpenClaw:让 AI 从 “聊天” 到 “干活” 的本地智能体革命
人工智能
2401_8359568114 分钟前
如何利用SQL子查询进行实时监控数据分析_性能优化
jvm·数据库·python
百锦再16 分钟前
使用JavaScript获取和解析页面内容的完整指南
开发语言·前端·javascript·python·flask·fastapi
实在智能RPA16 分钟前
Agent 如何处理流程中的异常情况?——2026企业级智能体稳定性架构深度拆解
开发语言·人工智能·ai·架构·php
AIoT科技物语17 分钟前
免费开源!50+算法,Java基于YOLO框架的视频AI识别算法平台,适配低空无人机巡检、摄像头安防场景
java·人工智能·算法·yolo·开源