技术栈

大模型主流激活函数

minhuan
4 小时前
大模型应用·大模型主流激活函数·ffn 前馈网络·chatglm3模型拆解
大模型主流激活函数解析:ReLU/GELU/SwiGLU原理差异,拆解FFN前向逻辑.188很多刚接触大模型微调、模型结构分析、推理优化的同学,第一眼看到 Transformer、FFN 前馈网络、SwiGLU、GELU、ReLU 这些名词都会觉得很抽象。大家普遍只知道注意力机制是大模型灵魂,却不知道激活函数才是决定模型深浅、长文本效果、梯度会不会消失、能不能叠几十上百层的关键底层组件。
我是有底线的