RNN 交叉熵

RNN善于处理时序 序列数据

简单RNN

展开就是

LSTM

遗忘门f_t决定上期记忆保留多少

隐藏层

在神经网络中,隐藏层指的是除了输入层和输出层之外的层,它们的输出不会直接用于网络的最终输出,而是作为中间步骤用于提取和转换数据。因此,如:卷积层作为一种在输入和输出之间的处理层,被归类为隐藏层。

隐状态

X_t符号含义

反向传播以求梯度 前向传播以求输出

信息论

信息熵

交叉熵损失函数

可以由信息熵推广而来,也可以通过极大似然的推导而来

softmax

然后选最大的,详见DL Softmax,多层感知机,卷积【0】_softmax与多层感知机的对比-CSDN博客

概率论

极大似然

数据集中,每个点的概率密度函数之积最小(即约≈p(X)),求导=0求参数,叫做参数的极大似然估计

相关推荐
Power20246662 小时前
NLP论文速读|LongReward:基于AI反馈来提升长上下文大语言模型
人工智能·深度学习·机器学习·自然语言处理·nlp
YRr YRr2 小时前
深度学习:循环神经网络(RNN)详解
人工智能·rnn·深度学习
多吃轻食3 小时前
大模型微调技术 --> 脉络
人工智能·深度学习·神经网络·自然语言处理·embedding
charles_vaez3 小时前
开源模型应用落地-glm模型小试-glm-4-9b-chat-快速体验(一)
深度学习·语言模型·自然语言处理
知来者逆3 小时前
研究大语言模型在心理保健智能顾问的有效性和挑战
人工智能·神经网络·机器学习·语言模型·自然语言处理
浊酒南街4 小时前
吴恩达深度学习笔记:卷积神经网络(Foundations of Convolutional Neural Networks)4.9-4.10
人工智能·深度学习·神经网络·cnn
光芒再现dev11 小时前
已解决,部署GPTSoVITS报错‘AsyncRequest‘ object has no attribute ‘_json_response_data‘
运维·python·gpt·语言模型·自然语言处理
好喜欢吃红柚子12 小时前
万字长文解读空间、通道注意力机制机制和超详细代码逐行分析(SE,CBAM,SGE,CA,ECA,TA)
人工智能·pytorch·python·计算机视觉·cnn
人工智能培训咨询叶梓13 小时前
探索开放资源上指令微调语言模型的现状
人工智能·语言模型·自然语言处理·性能优化·调优·大模型微调·指令微调
zzZ_CMing13 小时前
大语言模型训练的全过程:预训练、微调、RLHF
人工智能·自然语言处理·aigc