吴恩达 深度学习 神经网络 softmax adam 交叉验证

神经网络中的层 :输入层(layer 0)、隐藏层、卷积层(看情况用这个)、输出层。(参考文章

激活函数

隐藏层一般用relu函数;

输出层根据需要,二分类用sigmoid,多分类用softmax...前向传播算法参考文章
前向传播python实现
反向传播算法参考文章
用Tensorflow搭建一个神经网络参考文章

多分类问题

  1. softmax回归算法
    上图中 左二分类;右多分类

算法公式:

  1. Softmax回归算法的损失函数

Adam算法

参考文章

  • 在梯度下降中,学习率α控制着每一步的大小,如果α太小,可能会导致每一步走的太小,从而使梯度下降执行的太慢;相反,如果α太大,可能会导致每一步走的太大,从而使梯度下降来回振荡。
  • Adam算法可以自动调整α的大小 ,来保证可以用最短、最平滑的路径到达成本函数的最小值,通常它比梯度下降算法的速度要更快。
  • 在w、b参数每次改变都朝着大致相同的方向 移动时,adam算法会加大学习率α
  • 在w、b参数每次改变都不断来回振荡 时,adam算法会减小学习率α

交叉验证集


首先用训练集训练模型,之后用验证集选出最小的J,即相对最好的模型。
超参数d与 J t r a i n J_{train} Jtrain、 J c v J_{cv} Jcv的关系 :(即随着数据的增多, J t r a i n J_{train} Jtrain、 J c v J_{cv} Jcv的图)

λ如何影响 J t r a i n J_{train} Jtrain、 J c v J_{cv} Jcv :

通过最小 J c v J_{cv} Jcv,可以帮助选择一个合适的λ、d,从而帮助选择合适的模型
补充:下图中的式子为L2正则化(L1和L2正则化的区别

如何选择一个合适的λ:

从0开始,一次次的增大,找出最小的J。

学习曲线

通过画学习曲线这种可视化方式,来观察 J c v J_{cv} Jcv和 J t r a i n J_{train} Jtrain,并判断模型是否有高方差和高偏差。通过高方差、高偏差来改善模型算法。

(貌似一般不咋用,了解即可)参考文章

数据添加

  1. 加新数据
  2. 数据增强:通过旋转、缩小、方法、增加对比度、镜像变换等改变已有的训练样本,来获得一个全新的训练样本
    3. 数据合成:使用电脑上的字体,通过不同的对比度,颜色,字体进行截图得到。

迁移学习

参考文章1
参考文章2

举例:你要训练狗的图片,但你先用猫的图片进行训练模型,训练好的模型再用狗的进行训练微调模型。这就是迁移学习。

相关推荐
青松@FasterAI29 分钟前
【程序员 NLP 入门】词嵌入 - 上下文中的窗口大小是什么意思? (★小白必会版★)
人工智能·自然语言处理
AIGC大时代44 分钟前
高效使用DeepSeek对“情境+ 对象 +问题“型课题进行开题!
数据库·人工智能·算法·aigc·智能写作·deepseek
硅谷秋水1 小时前
GAIA-2:用于自动驾驶的可控多视图生成世界模型
人工智能·机器学习·自动驾驶
多巴胺与内啡肽.1 小时前
深度学习--自然语言处理统计语言与神经语言模型
深度学习·语言模型·自然语言处理
偶尔微微一笑1 小时前
AI网络渗透kali应用(gptshell)
linux·人工智能·python·自然语言处理·编辑器
深度之眼1 小时前
2025时间序列都有哪些创新点可做——总结篇
人工智能·深度学习·机器学习·时间序列
沅_Yuan1 小时前
基于贝叶斯优化的Transformer多输入单输出回归预测模型Bayes-Transformer【MATLAB】
神经网络·matlab·回归·贝叶斯·transformer·回归预测
晓数1 小时前
【硬核干货】JetBrains AI Assistant 干货笔记
人工智能·笔记·jetbrains·ai assistant
jndingxin2 小时前
OpenCV 图形API(60)颜色空间转换-----将图像从 YUV 色彩空间转换为 RGB 色彩空间函数YUV2RGB()
人工智能·opencv·计算机视觉
Sherlock Ma2 小时前
PDFMathTranslate:基于LLM的PDF文档翻译及双语对照的工具【使用教程】
人工智能·pytorch·语言模型·pdf·大模型·机器翻译·deepseek