技术栈
大模型主流激活函数
minhuan
4 小时前
大模型应用
·
大模型主流激活函数
·
ffn 前馈网络
·
chatglm3模型拆解
大模型主流激活函数解析:ReLU/GELU/SwiGLU原理差异,拆解FFN前向逻辑.188
很多刚接触大模型微调、模型结构分析、推理优化的同学,第一眼看到 Transformer、FFN 前馈网络、SwiGLU、GELU、ReLU 这些名词都会觉得很抽象。大家普遍只知道注意力机制是大模型灵魂,却不知道激活函数才是决定模型深浅、长文本效果、梯度会不会消失、能不能叠几十上百层的关键底层组件。
我是有底线的