为什么bn+tanh比bn+relu效果好?

在自己手搓cudnn搭建的神经网络中,bn+relu其实效果很差!

但不知为什么网络流行就是bn+relu,bn+relu虐我千百遍,失败!仅能用一次在网络中!我才意识到要用bn+tanh,然后,这个组合多达6次,也成功了!

所以我的直觉就是bn+tanh好!

是不是显卡低级,cuda和cudnn版本低的原因呢?(win10+vs2015 c++)

显卡我用mx550,1060,cuda9.0以及cudnn7.1.4

然后mx550升级为cuda10.2,cudnn7.6也不行!

其实我们潜意识都是随大流,要不自己为什么那么不入流?!

什么时间我才能bn+relu成功呢?别人早都成功了!

虽然网上搜不到解决方案,这方面不知道为啥研究的人这么少!

没有机会抄作业!而pytorch的底层你也看不到!

yolo v3能看到源码,与我没什么两样,为什么它可以,我的不可以,必须bn+tanh?

为什么pytorch这么低的起点(bn+relu)我都 做不到?

说以很无赖!无赖的在deepseek和百度搜一搜(追求一下心里平衡):bn+tanh比bn+relu好

结果如下:(心里平衡了!可能是tanh比relu更对称!)

唉,人的意识是一样的!

什么时候才能突破bn+relu?(或者leaky relu)

相关推荐
cskywit1 小时前
【CVPR2025】DefMamba突破固定扫描的枷锁的可变形视觉状态空间模型
人工智能
一叶飘零_sweeeet1 小时前
告别 AI 对话 “失忆”!Spring AI 聊天记忆底层原理与全场景落地实战
人工智能·spring·spring ai
SkyXZ~2 小时前
RDK-OE-LLM工具链量化SigLip全流程
人工智能·深度学习·rdk·地瓜机器人·rdks100·leap工具链
Learn Beyond Limits2 小时前
多层循环神经网络|Multi-layer RNNs
人工智能·rnn·深度学习·神经网络·机器学习·自然语言处理·nlp
泰白聊AI2 小时前
AI 编程时代的规范驱动开发:OpenSpec 实践指南
服务器·人工智能·驱动开发·ai·aigc·ai编程
geneculture2 小时前
AI大语言模型原创性边界的人机协同新范式
人工智能
龙文浩_2 小时前
AI深度学习神经网络的结构设计与激活机制
人工智能·深度学习·神经网络
cxr8282 小时前
控制理论基础
人工智能·算法
程序大视界2 小时前
2026AI智能体元年,中国正式超越美国
大数据·人工智能
一只空白格2 小时前
大模型微调
人工智能