RNN 交叉熵

RNN善于处理时序 序列数据

简单RNN

展开就是

LSTM

遗忘门f_t决定上期记忆保留多少

隐藏层

在神经网络中,隐藏层指的是除了输入层和输出层之外的层,它们的输出不会直接用于网络的最终输出,而是作为中间步骤用于提取和转换数据。因此,如:卷积层作为一种在输入和输出之间的处理层,被归类为隐藏层。

隐状态

X_t符号含义

反向传播以求梯度 前向传播以求输出

信息论

信息熵

交叉熵损失函数

可以由信息熵推广而来,也可以通过极大似然的推导而来

softmax

然后选最大的,详见DL Softmax,多层感知机,卷积【0】_softmax与多层感知机的对比-CSDN博客

概率论

极大似然

数据集中,每个点的概率密度函数之积最小(即约≈p(X)),求导=0求参数,叫做参数的极大似然估计

相关推荐
Archie_IT1 小时前
DeepSeek R1/V3满血版——在线体验与API调用
人工智能·深度学习·ai·自然语言处理
alphaAIstack3 小时前
大语言模型推理能力从何而来?
人工智能·语言模型·自然语言处理
Watermelo6174 小时前
从DeepSeek大爆发看AI革命困局:大模型如何突破算力囚笼与信任危机?
人工智能·深度学习·神经网络·机器学习·ai·语言模型·自然语言处理
鸟哥大大5 小时前
【Python】pypinyin-汉字拼音转换工具
python·自然语言处理
xiao5kou4chang6kai46 小时前
遥感影像目标检测:从CNN(Faster-RCNN)到Transformer(DETR)
目标检测·cnn·transformer·遥感影像
AC使者7 小时前
介绍 TensorFlow 的基本概念和使用场景。
开发语言·自然语言处理·sqlite·github
夏莉莉iy10 小时前
[MDM 2024]Spatial-Temporal Large Language Model for Traffic Prediction
人工智能·笔记·深度学习·机器学习·语言模型·自然语言处理·transformer
pchmi11 小时前
CNN常用卷积核
深度学习·神经网络·机器学习·cnn·c#
伊一大数据&人工智能学习日志12 小时前
自然语言处理NLP 04案例——苏宁易购优质评论与差评分析
人工智能·python·机器学习·自然语言处理·数据挖掘
UQI-LIUWJ14 小时前
论文略:ACloser Look into Mixture-of-Experts in Large Language Models
人工智能·语言模型·自然语言处理