RNN 交叉熵

RNN善于处理时序 序列数据

简单RNN

展开就是

LSTM

遗忘门f_t决定上期记忆保留多少

隐藏层

在神经网络中,隐藏层指的是除了输入层和输出层之外的层,它们的输出不会直接用于网络的最终输出,而是作为中间步骤用于提取和转换数据。因此,如:卷积层作为一种在输入和输出之间的处理层,被归类为隐藏层。

隐状态

X_t符号含义

反向传播以求梯度 前向传播以求输出

信息论

信息熵

交叉熵损失函数

可以由信息熵推广而来,也可以通过极大似然的推导而来

softmax

然后选最大的,详见DL Softmax,多层感知机,卷积【0】_softmax与多层感知机的对比-CSDN博客

概率论

极大似然

数据集中,每个点的概率密度函数之积最小(即约≈p(X)),求导=0求参数,叫做参数的极大似然估计

相关推荐
羊小猪~~9 小时前
【NLP入门系列三】NLP文本嵌入(以Embedding和EmbeddingBag为例)
人工智能·深度学习·神经网络·自然语言处理·大模型·nlp·embedding
Jamence9 小时前
多模态大语言模型arxiv论文略读(131)
论文阅读·人工智能·语言模型·自然语言处理·论文笔记
suixinm1 天前
Word2Vec介绍
rnn·深度学习·机器翻译
背太阳的牧羊人1 天前
BitsAndBytes(简称 BnB)是一个用于“压缩”大语言模型的工具包
人工智能·语言模型·自然语言处理
思绪漂移1 天前
大型语言模型(LLM)的构建模块
人工智能·语言模型·自然语言处理
lgbisha1 天前
华为云Flexus+DeepSeek征文|体验华为云ModelArts快速搭建Dify-LLM应用开发平台并搭建查询数据库的大模型工作流
人工智能·ai·自然语言处理·华为云
愚者大大1 天前
自然语言处理相关基本概念
人工智能·自然语言处理
十子木1 天前
什么是池化
人工智能·深度学习·机器学习·cnn
Ethanwhh1 天前
大语言模型原理与实战(第一章NLP基础概念)
人工智能·语言模型·自然语言处理
可爱美少女1 天前
Kaggle-Plant Seedlings Classification-(多分类+CNN+图形处理)
分类·数据挖掘·cnn