“hidden act“:“gelu“在bert中作用

在 BERT 中,"hidden_act": "gelu" 表示隐藏层(如前馈网络中的激活函数)使用的是 GELU(Gaussian Error Linear Unit) 激活函数。


一、GELU 激活函数是什么?

GELU(Gaussian Error Linear Unit)是一个非线性激活函数,它的数学定义如下:

其中 Φ(x)\Phi(x)Φ(x) 是标准正态分布的累积分布函数(CDF):

BERT 实际中使用的是一个近似形式:


二、GELU 的作用与优势

GELU 主要用于 Transformer 中的 前馈网络层(Feedforward Layer),具体在 BERT 的实现里,它出现在以下位置:

python 复制代码
# 假设这是 transformer 的一层
x = Linear1(hidden_states)
x = GELU(x)
x = Linear2(x)
相较于 ReLU 的优势:
激活函数 是否平滑 是否零点处连续 对负数的处理方式
ReLU 不连续 直接置 0
GELU 连续 以概率方式缩放

GELU 的"以概率方式决定激活强度"的方式,能够保留部分负值信息,使得信息流更平滑,更利于深层网络的训练。


三、在 BERT 中使用 GELU 的原因

  1. 提升模型表现:GELU 提供更细腻的非线性表达能力,实验表明 BERT 使用 GELU 比 ReLU 效果更好。

  2. 连续性和平滑性:避免 ReLU 的硬剪断问题,有助于梯度稳定传播。

  3. 更自然的概率解释:它模拟了"保留输入的概率是基于其大小"的机制,这在自然语言建模任务中非常有用。


四、总结

  • "hidden_act": "gelu" 是 BERT 中用于前馈子层的激活函数设置。

  • GELU 是一种比 ReLU 更平滑的激活函数,能更好地捕捉输入的非线性关系。

  • BERT 使用 GELU 是为了提高训练稳定性和模型效果,是其架构中一个关键的小改进点。

相关推荐
财经三剑客1 小时前
蚂蚁数科AI数据产业基地正式投产,携手苏州推进AI产业落地
人工智能
金井PRATHAMA1 小时前
分布在内侧内嗅皮层(MEC)的带状细胞对NLP中的深层语义分析有什么积极的影响和启示
人工智能·神经网络·自然语言处理
胡耀超1 小时前
大语言模型任务分解与汇总:从认知瓶颈到系统化解决方案
人工智能·深度学习·语言模型·自然语言处理·大模型·提示词·rag
点云SLAM2 小时前
OpenCV中特征匹配算法GMS(Grid-based Motion Statistics)原理介绍和使用代码示例
人工智能·opencv·算法·计算机视觉·图像配准·gms特征匹配算法·特征匹配算法
sduerfh2 小时前
opencv无法读取视频
人工智能·opencv·音视频
TGITCIC2 小时前
零售快销行业中线下巡店AI是如何颠覆传统计算机视觉识别的详细解决方案
人工智能·零售·ai视觉识别·ai巡店·零售ai·快销ai·ai陈列
蹦蹦跳跳真可爱5892 小时前
Python----NLP自然语言处理(Doc2Vec)
开发语言·人工智能·python·自然语言处理
b***25112 小时前
18650锂电池点焊机:新能源制造的精密纽带
大数据·人工智能·自动化·制造
风雪照我衣2 小时前
借助colab提供的免费gpu资源训练模型
人工智能·深度学习
盟接之桥2 小时前
盟接之桥说制造:差异化定位与效率竞争的双轮驱动
大数据·服务器·数据库·人工智能·制造