【Transformer】核心思想与原理

文章目录

  • 一、Transformer的核心思想
    • [1 Transformer与其他模型对比](#1 Transformer与其他模型对比)
  • 二、Transformer原理(核心模块拆解)
    • [1 输入处理:词嵌入和位置编码](#1 输入处理:词嵌入和位置编码)
    • [2 编码器(Encoder):特征提取与上下文建模](#2 编码器(Encoder):特征提取与上下文建模)
    • [3 解码器(Decoder):生成输出序列](#3 解码器(Decoder):生成输出序列)
    • [4 输出处理:线性变换与 Softmax](#4 输出处理:线性变换与 Softmax)
  • 三、总结
    • [1 关键创新点](#1 关键创新点)
    • [2 应用场景](#2 应用场景)

一、Transformer的核心思想

Transformer最早来自论文:Attention Is All You Need

核心结论一句话:

不用RNN/CNN,仅用Self-Attention(自注意力机制)+前馈网络 就能建模序列。

1 Transformer与其他模型对比

模型 问题
RNN 串行计算,无法并行
LSTM 长距离依赖仍然困难
CNN 感受野有限

Transformer解决几个问题:

  • 全并行计算
  • 长距离依赖
  • 计算效率高(适合GPU)

二、Transformer原理(核心模块拆解)

1 输入处理:词嵌入和位置编码

词嵌入:

  • 将输入序列的每个词转换为固定维度的向量(如512维),捕捉词汇的语义信息。
  • 例如:输入序列["Hello", "world"]会被映射为[[0.3, 0.6, ...], [0.5, -0.2, ...]].

位置编码:

  • 由于自注意力机制本身不包括位置信息,需通过正弦/余弦函数生成位置编码,与词嵌入相加。

  • 公式:

    其中,pos是词的位置,i是维度索引,d_model是嵌入维度(如512)

  • 作用:使模型能够区分词在序列中的顺序(如猫吃鱼与鱼吃猫)。

2 编码器(Encoder):特征提取与上下文建模

编码器由N个相同层堆叠(通常N=6),每次包含两个核心子层:

多头注意力机制:

  • 原理:将输入序列的每个词与其他词建立关联,捕捉上下文依赖。
  • 步骤:
    (1)线性变换:将输入向量X映射为查询(Q)、键(K)、值(V)三个矩阵。
    (2)缩放点积注意力:计算Q与K的点积,除以缩放因子,再通过softmax得到注意力权重,最后加权求和V。

    作用:模型可同时关注不同位置的词(如猫和鱼的关联)。

前馈神经网络(Feed-Forward Network,FFN):

  • 结构:两个全连接层+ReLu激活函数

    作用:对注意力输出的特征进行非线性变换,增强表达能力。

残差连接与层归一化:

  • 残差连接:将子层输入与输出相加,缓解梯度消失问题。
  • 层归一化:对每个样本的维度进行归一化,稳定训练过程。

3 解码器(Decoder):生成输出序列

解码器同样由N个相同层堆叠,每层包括三个核心子层:

掩码多头自注意力机制(Masked Multi-Head Self-Attention)

  • 掩码机制:在计算注意力时,将未来位置(如生成第 t个词时,屏蔽 t+1及之后的词)的权重设为负无穷,确保自回归生成(逐词预测)。
  • 作用:防止模型"偷看"未来信息,保证生成逻辑性。

编码器-解码器注意力(Encoder-Decoder Attention)

  • 原理:解码器的 Q来自自身,而 K,V来自编码器的输出,使解码器能够关注输入序列的相关部分。
  • 作用:建立输入与输出的对齐关系(如翻译中"Hello"对应"你好")。

前馈神经网络:

  • 与编码器中的 FFN 结构相同,进一步处理特征。

残差连接与层归一化:

  • 同编码器,确保训练稳定性。

4 输出处理:线性变换与 Softmax

线性层:

  • 将解码器输出的向量映射到词汇表大小(如10,000维),得到每个词的概率分布。

Softmax

  • 将线性层输出转换为概率值,选择概率最高的词作为预测结果。

三、总结

1 关键创新点

并行计算: 自注意力机制可同时处理所有位置,突破 RNN 的顺序计算限制。
长距离依赖建模: 通过多头注意力捕捉序列中任意位置的关联(如"虽然...但是"的语法结构)。
分成特征提取: 多层编码器逐步抽象语义(如第1层学词性,第6层学句子意图)。
自回归生成: 解码器通过掩码机制实现逐词预测,适用于生成任务(如翻译、文本摘要)。

2 应用场景

机器翻译: 编码器处理源语言,解码器生成目标语言。
文本生成: 如 GPT 模型,仅用解码器实现自回归生成。
预训练模型: 如 BERT(双向编码器)和 GPT(单向解码器),通过大规模无监督学习捕捉通用语言特征。

相关推荐
和小潘一起学AI2 小时前
人工智能中常用的KL散度是什么?
人工智能
yzx9910132 小时前
重构价值:2026年AI就业形势的深度剖析
人工智能·重构
I Promise342 小时前
BEV视角智驾方案业务需求分类与主流技术全解
人工智能·深度学习·计算机视觉
多恩Stone2 小时前
【3D-AICG 系列-12】Trellis 2 的 Shape VAE 的设计细节 Sparse Residual Autoencoding Layer
人工智能·python·算法·3d·aigc
qq_24218863322 小时前
金融AI反欺诈系统构建指南
人工智能·笔记·金融·课程设计
新加坡内哥谈技术2 小时前
Claude C 编译器:它揭示了软件未来的什么
人工智能
予枫的编程笔记2 小时前
【Kafka进阶篇】Kafka消息重复消费?Exactly-Once语义落地指南,PID+事务消息吃透
人工智能·kafka·消息队列·exactly-once·分布式消息·kafka幂等性·kafka事务消息
Loo国昌2 小时前
【AI应用开发实战】09_Prompt工程与模板管理:构建可演进的LLM交互层
大数据·人工智能·后端·python·自然语言处理·prompt
新缸中之脑2 小时前
Wellows:生成式AI搜索优化平台
人工智能·chatgpt