李沐54_循环神经网络RNN——自学笔记

潜变量自回归模型

使用潜变量ht总结过去信息。

困惑度perplexity

1.衡量一个语言模型的好坏可以用平均交叉熵

2.历史原因NLP使用困惑度exp(Π)来衡量,是平均每次可能选项

3.无穷大是最差,1是完美

梯度裁剪

1.迭代中计算这T个时间步的梯度,在反向传播过程中产生长度为O(T)的矩阵乘法链,导致数值不稳定

2.梯度裁剪可以有效预防梯度爆炸。如果梯度长度超过θ,那么拖影回长度θ

总结

1.循环神经网络的输出取决于当下输入和前一时间的隐变量

2.应用到语言模型中时,循环神经网络根据当前词预测下一次时刻词

3.通常使用困惑度来衡量语言模型的好坏

python 复制代码
相关推荐
智算菩萨几秒前
深度解析ChatGPT 5.4赋能Python Selenium网页自动化测试:从理论到实践的完整指南
人工智能·python·selenium·ai·chatgpt
大傻^1 分钟前
【Spring AI -01】Spring AI 2.0 架构重构深度解析:从单体核心到模块化领域的演进
人工智能·spring·架构·spring ai·模块化设计·java 21·架构迁移
未来之窗软件服务1 分钟前
vosk-ASR asterisk-ari调用[AI人工智能(五十四)]—东方仙盟
人工智能·仙盟创梦ide·东方仙盟
芯片-嵌入式2 分钟前
具身智能(4):最重要的感知sensor:相机
人工智能·深度学习·dnn
热点速递2 分钟前
AI智能面试系统深度解析:重构面试效率与评估质量的关键路径!
人工智能·面试·重构·业界资讯
AAAAA92403 分钟前
智变边缘:AI大模型如何重塑物联网蜂窝模组产业
人工智能·物联网
Lenyiin4 分钟前
《LeetCode 顺序刷题》51 - 60
java·c++·python·算法·leetcode·深度优先·lenyiin
搞程序的心海4 分钟前
Python面试题(二)
开发语言·python
whyfail4 分钟前
前端开发效率革命:(MCP+Skills)构建你的 AI 狙击手系统
人工智能
zhangshuang-peta6 分钟前
弥合 n8n 中的 AI 上下文鸿沟:为何采用 MCP Gateway 构建更智能的工作流
网络·人工智能·gateway·ai agent·mcp·peta