【HuggingFace Transformers】BertSelfOutput 和 BertOutput源码解析

BertSelfOutput 和 BertOutput源码解析

  • [1. 介绍](#1. 介绍)
    • [1.1 共同点](#1.1 共同点)
      • [(1) 残差连接 (Residual Connection)](#(1) 残差连接 (Residual Connection))
      • [(2) 层归一化 (Layer Normalization)](#(2) 层归一化 (Layer Normalization))
      • [(3) Dropout](#(3) Dropout)
      • [(4) 线性变换 (Linear Transformation)](#(4) 线性变换 (Linear Transformation))
    • [1.2 不同点](#1.2 不同点)
      • [(1) 处理的输入类型](#(1) 处理的输入类型)
      • [(2) 线性变换的作用](#(2) 线性变换的作用)
      • [(3) 输入的特征大小](#(3) 输入的特征大小)
  • [2. 源码解析](#2. 源码解析)
    • [2.1 BertSelfOutput 源码解析](#2.1 BertSelfOutput 源码解析)
    • [2.2 BertOutput 源码解析](#2.2 BertOutput 源码解析)

1. 介绍

BertSelfOutputBertOutputBERT 模型中两个相关但不同的模块。它们在功能上有许多共同点,但也有一些关键的不同点。以下通过共同点和不同点来介绍它们。

1.1 共同点

BertSelfOutputBertOutput 都包含残差连接、层归一化、Dropout 和线性变换,并且这些操作的顺序相似。

(1) 残差连接 (Residual Connection)

两个模块都应用了残差连接,即将模块的输入直接与经过线性变换后的输出相加。这种结构可以帮助缓解深层神经网络中的梯度消失问题,使信息更直接地传递,保持梯度流动顺畅。

(2) 层归一化 (Layer Normalization)

在应用残差连接后,两个模块都使用层归一化 (LayerNorm) 来规范化输出。这有助于加速训练,稳定网络性能,并减少内部分布变化的问题。

(3) Dropout

两个模块都包含一个 Dropout 层,用于随机屏蔽一部分神经元的输出,增强模型的泛化能力,防止过拟合。

(4) 线性变换 (Linear Transformation)

两个模块都包含一个线性变换 (dense 层)。这个线性变换用于调整数据的维度,并为后续的残差连接和层归一化做准备。

1.2 不同点

BertSelfOutput 专注于处理自注意力机制的输出,而 BertOutput 则处理前馈神经网络的输出。它们的输入特征维度也有所不同,线性变换的作用在两个模块中也略有差异。

(1) 处理的输入类型

  • BertSelfOutput :处理自注意力机制 (BertSelfAttention) 的输出。它关注的是如何将注意力机制生成的特征向量与原始输入结合起来。
  • BertOutput:处理的是前馈神经网络的输出。它将经过注意力机制处理后的特征进一步加工,并整合到当前层的最终输出中。

(2) 线性变换的作用

  • BertSelfOutput:线性变换的作用是对自注意力机制的输出进行进一步的变换和投影,使其适应后续的处理流程。
  • BertOutput:线性变换的作用是对前馈神经网络的输出进行变换,使其与前一层的输出相结合,并准备传递到下一层。

(3) 输入的特征大小

  • BertSelfOutput :输入和输出的特征维度保持一致,都是 BERT 模型的隐藏层大小 (hidden_size)。
  • BertOutput :输入的特征维度是中间层大小 (intermediate_size),输出则是 BERT 模型的隐藏层大小 (hidden_size)。这意味着 BertOutput 的线性变换需要将中间层的维度转换回隐藏层的维度。

2. 源码解析

源码地址:transformers/src/transformers/models/bert/modeling_bert.py

2.1 BertSelfOutput 源码解析

python 复制代码
# -*- coding: utf-8 -*-
# @time: 2024/7/15 14:27

import torch
from torch import nn


class BertSelfOutput(nn.Module):

    def __init__(self, config):
        super().__init__()
        self.dense = nn.Linear(config.hidden_size, config.hidden_size)  # 定义线性变换层,将自注意力输出映射到 hidden_size 维度
        self.LayerNorm = nn.LayerNorm(config.hidden_size, eps=config.layer_norm_eps)  # 层归一化
        self.dropout = nn.Dropout(config.hidden_dropout_prob)  # Dropout层

    def forward(self, hidden_states: torch.Tensor, input_tensor: torch.Tensor) -> torch.Tensor:
        hidden_states = self.dense(hidden_states)  # 对自注意力机制的输出进行线性变换
        hidden_states = self.dropout(hidden_states)  # Dropout操作
        hidden_states = self.LayerNorm(hidden_states + input_tensor)  # 残差连接后进行层归一化
        return hidden_states

2.2 BertOutput 源码解析

python 复制代码
# -*- coding: utf-8 -*-
# @time: 2024/8/22 15:41

import torch
from torch import nn


class BertOutput(nn.Module):
    def __init__(self, config):
        super().__init__()
        self.dense = nn.Linear(config.intermediate_size, config.hidden_size)  # 定义线性变换层,将前馈神经网络输出从 intermediate_size 映射到 hidden_size
        self.LayerNorm = nn.LayerNorm(config.hidden_size, eps=config.layer_norm_eps)  # 层归一化
        self.dropout = nn.Dropout(config.hidden_dropout_prob)  # Dropout层

    def forward(self, hidden_states: torch.Tensor, input_tensor: torch.Tensor) -> torch.Tensor:
        hidden_states = self.dense(hidden_states)  # 对前馈神经网络的输出进行线性变换
        hidden_states = self.dropout(hidden_states)  # Dropout操作
        hidden_states = self.LayerNorm(hidden_states + input_tensor)  # 残差连接后进行层归一化
        return hidden_states
相关推荐
钛投标免费AI标书工具几秒前
银奖·钛投标荣获华为技术有限公司主办昇腾AI大赛华中区决赛银奖
人工智能·深度学习·自然语言处理·知识图谱
nwsuaf_huasir12 分钟前
深度学习1.3-软件篇-2025Pycharm添加导入anaconda中虚拟环境的python解释器以及相关Error解决方案
人工智能·python·深度学习
2301_8002561115 分钟前
8.3 查询优化 核心知识点总结
大数据·数据库·人工智能·sql·postgresql
互联网资讯20 分钟前
融合AI大模型的Geo优化系统服务商如何选?避坑指南
大数据·人工智能·ai搜索优化·geo系统·geo优化系统·geo系统搭建
wan55cn@126.com21 分钟前
人生如戏:换个片场,继续出演
人工智能·笔记·百度·微信
搞科研的小刘选手22 分钟前
【广东财经大学主办】2026年人工智能与金融科技国际学术会议(IC-AIF 2026)
大数据·人工智能·金融·学术会议
tiger11927 分钟前
DeepSeek V3.1 的推理解析
人工智能·llm·推理·moe·decode·deepseek·prefill
eybk27 分钟前
局域网文件传输器安卓版本+win版本
android·python
_oP_i31 分钟前
人工智能在资产评估方面结合
人工智能