李沐54_循环神经网络RNN——自学笔记

潜变量自回归模型

使用潜变量ht总结过去信息。

困惑度perplexity

1.衡量一个语言模型的好坏可以用平均交叉熵

2.历史原因NLP使用困惑度exp(Π)来衡量,是平均每次可能选项

3.无穷大是最差,1是完美

梯度裁剪

1.迭代中计算这T个时间步的梯度,在反向传播过程中产生长度为O(T)的矩阵乘法链,导致数值不稳定

2.梯度裁剪可以有效预防梯度爆炸。如果梯度长度超过θ,那么拖影回长度θ

总结

1.循环神经网络的输出取决于当下输入和前一时间的隐变量

2.应用到语言模型中时,循环神经网络根据当前词预测下一次时刻词

3.通常使用困惑度来衡量语言模型的好坏

python 复制代码
相关推荐
薛定猫AI8 小时前
【深度解析】Hermes Agent 0.1.3 Tenacity:面向长运行 AI Agent 的可靠性工程实践
人工智能
m0_631529828 小时前
宝塔面板安装后无法修改配置文件_处理chattr锁定属性
jvm·数据库·python
Hotchip_MEMS8 小时前
高电压≠高风险:一颗ASIC芯片如何重构雾化器的安全边界?
人工智能·物联网
云烟成雨TD8 小时前
Spring AI Alibaba 1.x 系列【52】Interrupts 中断机制:案例演示
java·人工智能·spring
坐吃山猪8 小时前
【Hanako】README08_LEVEL4_插件系统架构
python·架构·agent·源码阅读
qq_411262428 小时前
基于 ESP32-S3 的四博 AI 双目智能音箱工程方案:四路触摸、IMU 姿态识别、震动反馈、双目屏状态机与语音克隆知识库接入
人工智能·智能音箱
dFObBIMmai8 小时前
Go语言怎么用GitHub Actions_Go语言GitHub Actions教程【基础】
jvm·数据库·python
老鱼说AI8 小时前
现代 LangChain 开发指南:从 LCEL 原理到企业级 RAG 与 Agent 实战
java·开发语言·人工智能·深度学习·神经网络·算法·机器学习
百度Geek说8 小时前
Browser Use:为 Agent 构建 Runtime Harness
人工智能