【深度学习】常见模型-Transformer模型

Transformer 是一种深度学习模型,首次由 Vaswani 等人在 2017 年提出(论文《Attention is All You Need》),在自然语言处理(NLP)领域取得了革命性成果。它的核心思想是通过 自注意力机制(Self-Attention Mechanism) 和完全基于注意力的架构来捕捉序列数据中的依赖关系。


Transformer 的基本结构

Transformer 模型由两个主要模块组成:

  1. 编码器(Encoder)

    • 输入序列经过嵌入(Embedding)和位置编码(Positional Encoding)后,逐层通过多个编码块。
    • 每个编码块包括两个主要子层:
      1. 多头自注意力层(Multi-Head Self-Attention)。
      2. 前馈全连接网络(Feedforward Neural Network)。
  2. 解码器(Decoder)

    • 解码器也由多层解码块组成,结构类似编码器,但有额外的交叉注意力机制。
    • 解码块主要包含:
      1. 多头自注意力层(Masked Multi-Head Self-Attention)。
      2. 交叉注意力层(Encoder-Decoder Attention)。
      3. 前馈全连接网络。

Transformer 的输入经过编码器进行特征提取,解码器利用编码器输出生成目标序列。


核心组件

1. 自注意力机制(Self-Attention Mechanism)
  • 目标:在序列的每个位置,计算它与其他所有位置的相关性,捕获全局依赖关系。

  • 公式

    • Q:查询矩阵(Query)。
    • K:键矩阵(Key)。
    • V:值矩阵(Value)。
    • :键向量的维度(用于缩放防止梯度爆炸)。
2. 多头注意力机制(Multi-Head Attention)
  • 将输入数据分为多个头(head),并分别计算注意力。
  • 优点:能够从不同的子空间捕获特征,提高模型的表达能力。
3. 位置编码(Positional Encoding)
  • 因为 Transformer 不使用 RNN 或 CNN,所以需要显式地表示序列位置。

  • 常用正弦和余弦函数来表示:

    • pos:位置索引。
    • i:维度索引。
    • d:嵌入维度。
4. 前馈全连接网络(FFN)
  • 每个编码器或解码器块都包含一个独立的全连接网络:

5. 残差连接与层归一化
  • 每个子层后加残差连接(Residual Connection)并归一化(Layer Normalization),以加速训练和稳定梯度。

Transformer 的整体结构

Transformer 使用堆叠的编码器和解码器模块处理输入和输出:

  1. 输入序列(如句子)经过嵌入和位置编码后输入到编码器。
  2. 编码器生成的上下文向量传递到解码器。
  3. 解码器通过交叉注意力结合编码器的上下文向量和解码器中间状态生成输出序列。

代码实现

以下是使用 TensorFlow 和 Keras 构建简单 Transformer 的代码示例:

python 复制代码
import tensorflow as tf
from tensorflow.keras.layers import Dense, Embedding, LayerNormalization, Dropout
import numpy as np

# 自注意力机制
class MultiHeadAttention(tf.keras.layers.Layer):
    def __init__(self, d_model, num_heads):
        super(MultiHeadAttention, self).__init__()
        self.num_heads = num_heads
        self.d_model = d_model

        assert d_model % self.num_heads == 0

        self.depth = d_model // self.num_heads
        self.wq = Dense(d_model)
        self.wk = Dense(d_model)
        self.wv = Dense(d_model)
        self.dense = Dense(d_model)

    def split_heads(self, x, batch_size):
        x = tf.reshape(x, (batch_size, -1, self.num_heads, self.depth))
        return tf.transpose(x, perm=[0, 2, 1, 3])  # (batch_size, num_heads, seq_len, depth)

    def call(self, q, k, v, mask):
        batch_size = tf.shape(q)[0]

        q = self.wq(q)  # (batch_size, seq_len, d_model)
        k = self.wk(k)
        v = self.wv(v)

        q = self.split_heads(q, batch_size)
        k = self.split_heads(k, batch_size)
        v = self.split_heads(v, batch_size)

        # Scaled dot-product attention
        matmul_qk = tf.matmul(q, k, transpose_b=True)
        dk = tf.cast(tf.shape(k)[-1], tf.float32)
        scaled_attention_logits = matmul_qk / tf.math.sqrt(dk)

        if mask is not None:
            scaled_attention_logits += (mask * -1e9)

        attention_weights = tf.nn.softmax(scaled_attention_logits, axis=-1)  # (batch_size, num_heads, seq_len_q, seq_len_k)
        output = tf.matmul(attention_weights, v)  # (batch_size, num_heads, seq_len_q, depth_v)

        output = tf.transpose(output, perm=[0, 2, 1, 3])  # (batch_size, seq_len_q, num_heads, depth)
        concat_attention = tf.reshape(output, (batch_size, -1, self.d_model))  # (batch_size, seq_len_q, d_model)

        return self.dense(concat_attention)

# 示例调用
sample_mha = MultiHeadAttention(d_model=512, num_heads=8)
temp_q = tf.random.uniform((1, 60, 512))  # (batch_size, seq_len, d_model)
temp_k = tf.random.uniform((1, 60, 512))
temp_v = tf.random.uniform((1, 60, 512))
temp_out = sample_mha(temp_q, temp_k, temp_v, None)
print(temp_out.shape)  # (1, 60, 512)

Transformer 的应用

  1. 自然语言处理

    • 机器翻译(Google Translate 使用 Transformer)。
    • 文本摘要(如 BERT、GPT)。
    • 情感分析、问答系统。
  2. 计算机视觉

    • 图像分类(如 Vision Transformer)。
    • 目标检测、图像生成。
  3. 音频处理

    • 语音识别(如 Wav2Vec)。
    • 音乐生成。
  4. 其他领域

    • 推荐系统、时间序列预测、生物信息学。

优点与缺点

优点:
  1. 并行处理能力强,速度快。
  2. 能捕获长距离依赖关系。
  3. 通用性强,适用于多种任务。
缺点:
  1. 计算成本高(尤其是自注意力机制在长序列上的时间复杂度)。
  2. 对内存需求大,训练大型模型需高性能硬件。

Transformer 以其强大的表达能力和灵活性,已经成为深度学习领域的重要基石,为 NLP 和其他领域带来了巨大变革。

相关推荐
gogoMark3 小时前
口播视频怎么剪!利用AI提高口播视频剪辑效率并增强”网感”
人工智能·音视频
2201_754918413 小时前
OpenCV 特征检测全面解析与实战应用
人工智能·opencv·计算机视觉
love530love5 小时前
Windows避坑部署CosyVoice多语言大语言模型
人工智能·windows·python·语言模型·自然语言处理·pycharm
985小水博一枚呀5 小时前
【AI大模型学习路线】第二阶段之RAG基础与架构——第七章(【项目实战】基于RAG的PDF文档助手)技术方案与架构设计?
人工智能·学习·语言模型·架构·大模型
白熊1885 小时前
【图像生成大模型】Wan2.1:下一代开源大规模视频生成模型
人工智能·计算机视觉·开源·文生图·音视频
weixin_514548895 小时前
一种开源的高斯泼溅实现库——gsplat: An Open-Source Library for Gaussian Splatting
人工智能·计算机视觉·3d
四口鲸鱼爱吃盐6 小时前
BMVC2023 | 多样化高层特征以提升对抗迁移性
人工智能·深度学习·cnn·vit·对抗攻击·迁移攻击
Echo``6 小时前
3:OpenCV—视频播放
图像处理·人工智能·opencv·算法·机器学习·视觉检测·音视频
Douglassssssss6 小时前
【深度学习】使用块的网络(VGG)
网络·人工智能·深度学习
okok__TXF6 小时前
SpringBoot3+AI
java·人工智能·spring