AI-大语言模型LLM-Transformer架构5-残差连接与前馈网络

目的

为避免一学就会、一用就废,这里做下笔记

说明

  1. 本文内容紧承前文-Transformer架构1-整体介绍Transformer架构4-多头注意力、掩码注意力、交叉注意力,欲渐进,请循序
  2. 本文重点介绍Transformer架构中的残差连接与前馈网络,它们在编码器堆栈和解码器堆栈中都有用到

残差连接

  • 残差连接的详细内容,在前文-残差网络中已经提及。
  • 简单讲,残差连接是一种技术手段,为了解决极深网络中的梯度消失和网络退化问题,降低优化难度,为深层网络的训练效果托底
  • 残差连接的核心,是让网络从学习完整的目标映射到学习一个残差,这样有价值的浅层信息不至于在网络的层层传递中丢失。
  • 上图中,1-5号残差连接后,分别对应一个Add & Norm模块,以1号残差连接对应的Add & Norm模块为例详细说明。
    1、Add操作是残差连接的一部分,它把嵌入层的输出矩阵X注意力层的输出矩阵Z 相加,以确保后续层工作时,不会丢失浅层X的信息
    2、Norm操作是进行层归一化,归一化的作用:
    • 1、提高稳定性:稳定数值范围(限制个别极端值的影响)
    • 2、提升效率:加速收敛

前馈网络

  • 前馈网络就是前文-神经网络中最常见的基础神经网络,也称多层感知机(MLP)、全连接网络。
  • 前馈:工作时,只有前向计算,没有循环或反馈连接。与前馈神经网络并列的概念是循环神经网络如RNN

为什么要引入前馈网络

简单说:如果注意力层是让每个词"看到"其他词,那么前馈网络就是让每个词"深入思考"自己。两者结合,才能实现真正的理解。

  • 注意力层的计算是加权求和,是一种线性计算,而线性能够拟合的模式有限

  • 前馈网络弥注意力层的不足,使用的是非线性计算,使模型能够拟合更复杂的模式。

  • 两者结合效果如下:

    输入:[词1, 词2, 词3]

    注意力:词1←→词2←→词3(建立关系)

    前馈:词1→深加工,词2→深加工,词3→深加工

    输出:既有关系信息,又有深度特征

相关推荐
阿里云大数据AI技术4 小时前
Hologres CLI与Skills担当Agent-Ready 基础设施,共建数仓智能新生态_
人工智能·阿里云·agent·hologres·skills
oo哦哦5 小时前
全域矩阵系统的技术架构拆解:从单点效率到链路闭环
人工智能·矩阵·架构
love530love5 小时前
MingLi-Bench 项目部署实录:基于 EPGF 架构的工程化实践
人工智能·windows·python·架构·aigc·epgf·mingli-bench
西西弗Sisyphus5 小时前
基于 Transformer 架构的翻译模型实践 - SentencePiece 分词的例子
transformer
Elastic 中国社区官方博客5 小时前
快 12 倍的 Elasticsearch 向量索引:使用 GPU 和 CPU 分层部署 NVIDIA cuVS
大数据·人工智能·elasticsearch·搜索引擎·ai·全文检索·nvidia
产业家5 小时前
“国标”发布,AI终端硬件要“考级“了
人工智能
前沿推行者5 小时前
辽宁传媒学院教学特色解析:从实践导向到产教融合
大数据·人工智能
绝知此事5 小时前
2026 AI 技术生态全景指南:从 LLM 到 Agent,从 MCP 到 A2A
人工智能·ai·ai编程
AI算法沐枫5 小时前
大模型 | 大模型之机器学习基本理论
人工智能·python·神经网络·学习·算法·机器学习·计算机视觉
li星野5 小时前
Transformer 核心模块详解:多头注意力、前馈网络与词嵌入
人工智能·深度学习·transformer