【学习笔记】全解深度学习

编码器结构

每个编码器中的自注意力层周围都有一个残差连接,然后是层归一化步骤。归一化的输出再通过前馈网络(FeedForward Network,FFN)进行映射,以进行进一步处理。前馈网络本质上就是几层神经网络层,其中间采用ReLU激活函数,两层之间采用残差连接。

  • 残差连接可以帮助梯度进行反向传播,让模型更快更好地收敛。
  • 层归一化用于稳定网络,减轻深度学 习模型数值传递不稳定的问题。

至于Transformer中的FNN是一个MLP,它在自注意力机制之后对序列中的每个向量单独应用。FNN起到以下两个主要作用。

(1)引人非线性:虽然自注意力机制能捕捉序列中不同位置的向量之间的依赖关系,但它本质上是线性的。通过引人FNN层,Transformer可以学习到输人序列的非线性表示,这有助于模型捕捉更复杂的模式和结构。

(2)局部特征整合:FNN层是一个MLP,对序列中每个位置的向量独立作用。这意味着它可以学习到局部特征并整合这些特征,以形成更丰富的特征表示。这种局部特征整合与自注意力机制中的全局依赖关系形成互补,有助于提高模型性能。换句话说,自注意力机制学习的是向量之间的关系,而FNN学习的是每个向量本身更好的特征表示。

GPT

相关推荐
Yu_Lijing几秒前
基于C++的《Head First设计模式》笔记——蝇量模式
c++·笔记·设计模式
Kal-Lai几秒前
学习笔记:UR5协作机器人正运动学计算
笔记
新缸中之脑1 分钟前
NotebookLM:最佳学习工具
人工智能·学习·chatgpt
LightYoungLee2 分钟前
大模型(七)Agent AI学习笔记
人工智能·笔记·学习
txh05075 分钟前
物联网esp8266小记
物联网·学习·esp8266
星轨初途8 分钟前
C++ 类和对象(下):初始化列表、static 成员与编译器优化深度剖析
android·开发语言·c++·经验分享·笔记
SteveSenna9 分钟前
模仿学习2.7:diffusion
学习
努力的lpp9 分钟前
小迪安全课程第五节复习笔记:渗透测试命令与反弹连接技术
笔记·安全
知识分享小能手10 分钟前
MongoDB入门学习教程,从入门到精通,MongoDB 知识点详解(1)
数据库·学习·mongodb
zzh9407712 分钟前
GPT-4o与Gemini官网如何改变学习方式:2026年大模型教育应用实测
学习