如何训练神经网络--1

文章目录


前言

学海无涯,笔勤不辍...暑假过的也太懒惰了...没想到已经断更了一个多月了...笔者要好好反省自己,下次还敢 hhh

本阶段,笔者将更新一些ML/DL的相关知识,满满干货,快点赞收藏吧...(本文基于读者,对机器学习/神经网络/深度学习 有一定的基础了解,直接上实操相关的知识...)


训练一个神经网络,最基本的要了解激活函数,预处理、权重设置、Btach normalization、评价模型、超参数优化

今天就浅浅谈一下激活函数(常见)的问题,以及在实践中用哪个激活函数比较好...

一、浅谈激活函数

1.sigmoid 函数

其公式为:f(x)= 1/(1+e-x)

sigmoid函数存在的问题:

复制代码
1.可以发现,当input(x)是正数且特别大或者是负数且特别小,函数趋于平坦,梯度变得很小,即神经元趋于饱和,使得反向传播时,根据梯度对各超参数调整的幅度很小,很可能会发生"梯度消失"的问题
2.同时,经由sigmoid函数后,input(x)会被投影到(0,1)之间,这不是0对称的,也就是说,下一层的神经元的输入都是正的,这也使得超参数的梯度优化方向不是一直为正就是一直为负,这使得梯度下降/超参数优化变得困难..
3.因为要计算e/exp() 会消耗大量的计算资源...
​```

2.tanh函数

其公式为:

可以看出,它在sigmoid函数基础上进行了改进,解决了非0中心的问题,能让输入的input(x)不全为正数,这比sigmoid是一个进步...

它的问题:

复制代码
1.与sigmoid函数相同,当输入的值为大的正数或小的负数,它在后向传播中可能会导致"梯度消失"问题
2.要计算e/exp() 消耗了计算机的算力资源

3.RELU函数:

其公式为:

可以很清楚的看见,当input(x)是正数时,它的梯度不会消失,一定程度上解决了梯度消失的问题

同时,它的运算是线性的,速度更快,在实际操作中,一般是sigmod/tanh 的六倍

但它同样存在问题,就是它没有0中心化...

RELU系列的激活函数是很多的...之后的就之后来更新吧...
实践中多使用RELU函数作为激活函数,可以尝试使用tanh或者其他RELU系列函数,不要用sigmoid函数!!!


总结

在训练神经网络时,激活函数最好使用RELU系列,一般是RELU函数...RELU函数能很好增加非线性,它在正数范围很好的克服了神经元的饱和问题,输入有不同能很直观的表现出来,能让更多信息进入下一层,使得神经网络更好地学习到现实世界的信息,更加贴合现实世界...但是RELU函数,可能会死亡,由于负输入会使得输出是0,影响参数的更新,导致神经元的失效...

相关推荐
澹锦汐2 分钟前
Serverless 单兵作战:独立产品的云架构冷启动与免运维落地路线
人工智能
知识浅谈3 分钟前
人工智能日报 每日AI新闻(2026年6月5日):ChatGPT记忆升级、AI基建与机器人应用同步升温
人工智能·chatgpt·机器人
搞科研的小刘选手10 分钟前
【西安交通大学主办】第六届人工智能、自动化与高性能计算国际会议 (AIAHPC 2026)
网络·人工智能·机器学习·数据挖掘·自动化·云计算·并行式
黑巧克力可减脂10 分钟前
慎御智能之变,方守数字安澜:AI Agent安全风险与全域防御体系
人工智能·安全
fuquxiaoguang14 分钟前
AI 重塑网页抓取:技术革新、攻防边界与未来图景
人工智能·网页抓取
C++ 老炮儿的技术栈16 分钟前
如何利用 OpenCV 将图像显示在对话框窗口上
c语言·c++·人工智能·qt·opencv·计算机视觉·github
在水一缸17 分钟前
当开源硬件撞上闭源围墙:从 Flux.ai 律师函事件看 AI 时代的爬虫法律风险与技术边界
人工智能·爬虫·开源·开源硬件·数据合规·法律风险·flux.ai
冬奇Lab18 分钟前
Agent 系列(14):Agent 可观测性——追踪每一步决策,让黑盒变透明
人工智能·llm·agent
澹锦汐19 分钟前
AI 重构工作流:赋能独立开发快速迭代的研发效能革命
人工智能
装不满的克莱因瓶21 分钟前
基于 Python 进行二维空间线性可分数据单/多层感知器实战
人工智能·python·深度学习·神经网络·ai·卷积