李沐54_循环神经网络RNN——自学笔记

潜变量自回归模型

使用潜变量ht总结过去信息。

困惑度perplexity

1.衡量一个语言模型的好坏可以用平均交叉熵

2.历史原因NLP使用困惑度exp(Π)来衡量,是平均每次可能选项

3.无穷大是最差,1是完美

梯度裁剪

1.迭代中计算这T个时间步的梯度,在反向传播过程中产生长度为O(T)的矩阵乘法链,导致数值不稳定

2.梯度裁剪可以有效预防梯度爆炸。如果梯度长度超过θ,那么拖影回长度θ

总结

1.循环神经网络的输出取决于当下输入和前一时间的隐变量

2.应用到语言模型中时,循环神经网络根据当前词预测下一次时刻词

3.通常使用困惑度来衡量语言模型的好坏

python 复制代码
相关推荐
姗姗来迟了1 分钟前
Vue3封装AI流式对话组件踩坑实录
人工智能
码上天下43 分钟前
用Pinia管理AI多会话状态
人工智能
用户054324329701 小时前
Next.js接大模型流式SSE实操踩坑
人工智能
Assby2 小时前
从 Function Calling 到 MCP:理解 Agent 工具调用的底层通信机制
人工智能·后端
小星AI2 小时前
Claude Code 从入门到精通,一步到位
人工智能
后端小肥肠2 小时前
Codex + Obsidian 做人生副本视频:输入主题文案,直通剪映草稿
人工智能·aigc·agent
百度Geek说3 小时前
全链路研发智能体 ——从"体感能用"到"实际可用"的工程实践
人工智能
甲维斯4 小时前
500块的豆包,能帮我搞定这个么?!
人工智能
火山引擎开发者社区4 小时前
当 Agent 自己做 SRE:详解 ArkClaw 自动化可观测体系的工程实践
人工智能
Coffeeee6 小时前
两个例子,帮你快速理解什么是Token
人工智能·程序员·ai编程