为什么bn+tanh比bn+relu效果好？

工业机器视觉设计和实现2026-03-16 14:32

在自己手搓cudnn搭建的神经网络中，bn+relu其实效果很差！

但不知为什么网络流行就是bn+relu，bn+relu虐我千百遍，失败！仅能用一次在网络中！我才意识到要用bn+tanh，然后，这个组合多达6次，也成功了！

所以我的直觉就是bn+tanh好！

是不是显卡低级，cuda和cudnn版本低的原因呢？（win10+vs2015 c++）

显卡我用mx550，1060，cuda9.0以及cudnn7.1.4

然后mx550升级为cuda10.2，cudnn7.6也不行！

其实我们潜意识都是随大流，要不自己为什么那么不入流？！

什么时间我才能bn+relu成功呢？别人早都成功了！

虽然网上搜不到解决方案，这方面不知道为啥研究的人这么少！

没有机会抄作业！而pytorch的底层你也看不到！

yolo v3能看到源码，与我没什么两样，为什么它可以，我的不可以，必须bn+tanh？

为什么pytorch这么低的起点（bn+relu）我都做不到？

说以很无赖！无赖的在deepseek和百度搜一搜（追求一下心里平衡）：bn+tanh比bn+relu好

结果如下：（心里平衡了！可能是tanh比relu更对称！）

唉，人的意识是一样的！

什么时候才能突破bn+relu？（或者leaky relu）