李沐54_循环神经网络RNN——自学笔记

潜变量自回归模型

使用潜变量ht总结过去信息。

困惑度perplexity

1.衡量一个语言模型的好坏可以用平均交叉熵

2.历史原因NLP使用困惑度exp(Π)来衡量,是平均每次可能选项

3.无穷大是最差,1是完美

梯度裁剪

1.迭代中计算这T个时间步的梯度,在反向传播过程中产生长度为O(T)的矩阵乘法链,导致数值不稳定

2.梯度裁剪可以有效预防梯度爆炸。如果梯度长度超过θ,那么拖影回长度θ

总结

1.循环神经网络的输出取决于当下输入和前一时间的隐变量

2.应用到语言模型中时,循环神经网络根据当前词预测下一次时刻词

3.通常使用困惑度来衡量语言模型的好坏

python 复制代码
相关推荐
许彰午几秒前
06_Java面向对象入门
java·开发语言·python
ZHW_AI课题组几秒前
使用 Rectified Flow 和 Diffusion Transformer实现 MNIST 手写数字图像生成
人工智能·python·机器学习
z202305082 分钟前
RDMA之DCQCN (14)
linux·服务器·网络·人工智能·ai
SimpleLearingAI3 分钟前
PyTorch & Numpy 实现线性回归详解
人工智能·算法·多模态大模型
Royzst4 分钟前
一、IO 概述
开发语言·python
董董灿是个攻城狮4 分钟前
AI 会吃了天涯吗?
人工智能
天风之翼4 分钟前
AI 模型部署从入门到生产 —— ONNX 转换、TensorRT 加速、推理服务搭建
人工智能
A15362554 分钟前
从 AI 零引用到高转化:GEO 落地价值解析
人工智能
Omics Pro6 分钟前
P4医学4大支柱需绑定4大数字技术才可落地
人工智能·python·算法·机器学习·plotly
海鸥-w7 分钟前
前端学习python第三天笔记整理(list 列表,str字符串,tuple元组,set集合,dect,函数,类型注解)
前端·python·学习