【漫话机器学习系列】224.双曲正切激活函数(Hyperbolic Tangent Activation Function)

双曲正切激活函数(tanh)详解:更优于 Sigmoid 的选择?

在构建神经网络时,激活函数是非常关键的一环。本文将带大家深入了解一种常见但常被忽视的激活函数:双曲正切函数(Hyperbolic Tangent Function,简称 tanh)。通过图解和数学表达,我们来剖析它的性质及在实际中的应用。


一、什么是双曲正切函数(tanh)?

双曲正切函数(tanh) 是一种 S 形的激活函数,其数学表达形式为:

它是通过双曲正弦(sinh)与双曲余弦(cosh)的比值得到的函数,图像如下所示:


二、tanh 与 sigmoid 有什么区别?

虽然 tanh 和 sigmoid 都是 S 型函数,但它们的输出范围不同:

函数 输出范围 是否中心化 常见问题
sigmoid (0, 1) 梯度消失问题严重
tanh (-1, 1) 梯度问题缓解

为什么 tanh 更推荐?

从图中我们可以看出,tanh 函数的输出是以 0 为中心的对称区间 -1, 1,相比 sigmoid 更接近"0 中心化"。这意味着,在使用 tanh 激活函数时,神经元的输出会更容易让下一层网络保持平衡的输入分布,从而加快收敛速度。

而 sigmoid 的输出全为正(0 到 1),可能导致后续层输出出现偏移,从而增加训练难度。


三、tanh 的图像分析

从图像中可以观察到:

  • 当输入 z → −∞ 时,输出趋近于 -1;

  • 当输入 z → +∞ 时,输出趋近于 +1;

  • 在 z = 0 时,输出正好为 0;

  • 整体是光滑、连续且可导的函数,适合用于反向传播计算。


四、tanh 的导数

tanh 函数的导数形式非常简单:

这是它相较于 sigmoid 的另一大优势,便于梯度的传播计算。


五、在深度学习中的应用场景

虽然 ReLU 类函数现在是主流,但 tanh 依然有其重要应用:

  1. 用于处理有负值输入的数据

  2. 适用于较浅层网络,或需要输出在 -1, 1 区间的模型

  3. 在 LSTM 等循环神经网络中依然广泛使用(如门控机制中就大量采用 tanh)。


六、总结

特性 tanh
输出范围 (-1, 1)
是否0中心化
是否可导
梯度问题 相较 sigmoid 更缓和
应用领域 循环神经网络(LSTM)、二分类模型等

小结:

tanh 是一个简单却非常强大的激活函数,虽然近年来被 ReLU 抢去了风头,但它仍在很多模型中扮演着关键角色。选择激活函数时,没有"放之四海皆准"的标准,重要的是根据你的问题和数据类型合理选择。

相关推荐
染指11104 小时前
26.RAG进阶(Advanced RAG)-假设性问题索引
人工智能·windows·agent·rag·advanced rag
闵孚龙4 小时前
动态图机制:为什么 PyTorch 调试起来更舒服
人工智能·pytorch·python
甲维斯4 小时前
还要啥Codex!DeepSeek接入Zcode远程连接!
人工智能
百胜软件@百胜软件5 小时前
百胜软件亮相“AI消费新生活”主题日活动,AI智能运营平台入选市级案例征集
人工智能·生活·零售数字化·数智中台·珠宝行业
专注搞钱5 小时前
GPT-4o写设备Recipe:从3小时到10分钟
数据库·人工智能·gpt·半导体
闻道参看6 小时前
贝芯宠AI灵兽 ELFVET 大模型聚焦临床应用,强化宠物诊疗综合能力
人工智能·宠物
MartinYeung56 小时前
[论文学习]重新思考大型语言模型忘却目标:梯度视角与超越
人工智能·学习·语言模型
财经资讯数据_灵砚智能6 小时前
基于全球经济类多源新闻的NLP情感分析与数据可视化(夜间-次晨)2026年6月14日
大数据·人工智能·python·ai·信息可视化·自然语言处理·灵砚智能
m0_380167146 小时前
加密货币价格 API、市场数据 API 与 分析 API 有什么区别?
人工智能·ai·区块链
zyplayer-doc6 小时前
企业知识库安全与权限管理完全指南:从加密到审计的六层防护
人工智能·安全·pdf·编辑器·创业创新