| 应用位置 | 任务场景 | 首选激活函数 | 备选 / 优化方案 | 核心原因 |
|---|---|---|---|---|
| 隐藏层 | 传统 CNN / 全连接网络 | ReLU | Leaky ReLU(防死神经元) | 计算快、无梯度消失、兼容性好 |
| 隐藏层 | Transformer/LLM/ 现代模型 | GELU | Swish/Mish | 平滑非线性、训练更稳定 |
| 输出层 | 回归(任意连续值) | 无激活(线性) | - | 输出无范围限制 |
| 输出层 | 回归(非负连续值) | ReLU | Softplus | 保证输出≥0 |
| 输出层 | 二分类(0/1) | Sigmoid | - | 输出 (0,1) 可表示概率 |
| 输出层 | 多分类(互斥) | Softmax | - | 输出和为 1 的类别概率 |
| 输出层 | 多标签分类(共存) | Sigmoid(逐标签) | - | 每个标签独立输出 0-1 概率 |
激活函数必须和损失函数配对 (否则训练失效)「激活函数必须和损失函数配对」仅针对输出层,和隐藏层无关。
| 任务类型 | 激活函数 | 对应损失函数 |
|---|---|---|
| 回归(连续任意值) | 无激活(线性) | MSE、MAE、Huber |
| 回归(非负连续值) | ReLU | MSE |
| 二分类(0/1) | Sigmoid | 二元交叉熵(BCE) |
| 多分类(互斥类别) | Softmax | 类别交叉熵 |
| 多标签分类(多标签共存) | Sigmoid(逐标签) | 二元交叉熵 |