6.吴恩达机器学习——TensorFlow与激活函数

TensorFlow训练细节

对比逻辑回归步骤,在TensorFlow中训练一个神经网络也有三步:网络层定义,损失函数定义,模型拟合;现在的深度学习大部分都是进行的调库使用,理解库中的实现细节有助于我们产生不同想法,要知其然,还要知其所以然。

1.网络层定义

通过Dense()来定义密集层结构,对应于逻辑回归中的第一步

2.损失函数定义

在逻辑回归中,我们通过计算损失函数以及对应的成本函数来实现,而在model.compile(loss=...)中,可以直接使用model.compile(loss=...)来实现

3.数据拟合归一化

在逻辑回归中,计算了成本函数之后,要通过迭代更新,不断更新w和b的值,从而降低成本函数的值,在TensorFlow中使用model.fit()即可实现

激活函数的选择和重要性

1.输出层激活函数选择

在为输出层选择激活函数时候,你通常根据你要预测的Y,会有一个相当自然的选择

  1. 如果你正在实现二分类任务,使用sigmoid是最好的选择
  2. 如果你正在实现回归任务,Y可正可负,使用linear线性激活函数
  3. 如果回归问题中,最终结果非负,使用ReLU激活函数

2.隐藏层激活函数选择

ReLU激活函数是最佳的选择,相比与sigmoid激活函数,ReLU计算速度更快,且只有在图像的左侧才会有平坦的值,这样在计算成本函数时候得到的成本函数的图像会有更好的梯度下降趋势

下图展示的是使用sigmoid造成的成本函数有多个平坦的地方,这就导致梯度下降缓慢

综合选择:隐藏层使用ReLU激活函数,输出层使用sigmoid激活函数

除此之外还有其他更多的激活函数,读者可以自行网上搜索学习

多分类问题激活函数选择

1.什么是多分类

多分类问题本质上是二分类问题的扩展,输出的Y不仅仅是0或者1,可能还有其他更多的值

2.Softmax回归算法

Softmax回归是逻辑回归的泛化,适用于多分类任务

公式实现

且a1+a2+a3+...+an=1;下图详细展示了softmax函数的使用

损失函数实现

以下是逻辑回归和softmax回归损失函数的定义

3.softmax的神经网络实现

但在实际应用中一般不使用这段代码,因为在使用过程中可能会产生数值舍入误差,

复制代码
import tensorflow as tf
from tensorflow.keras import Sequential
from tensorflow.keras.layers import Dense
model = Sequential([
    Dense(units=25, activation='relu'),
    Dense(units=15, activation='relu'),
    Dense(units=10, activation='linear')])
from tensorflow.keras.losses import
SparseCategoricalCrossentropy
model.compile(...,loss=SparseCategoricalCrossentropy(from_logits=True))
# (from_logits=True) 是关键
model.fit(X,Y,epochs=100)
predict	logits = model(X)
f_x = tf.nn.softmax(logits)


model = Sequential([
    Dense(units=25, activation='sigmoid'),
    Dense(units=15, activation='sigmoid'),
    Dense(units=1, activation='linear')
])
from tensorflow.keras.losses import BinaryCrossentropy
model.compile(..., BinaryCrossentropy(from_logits=True))
model.fit(X,Y,epochs=100)
logit = model(X)
f_x = tf.nn.sigmoid(logit)

由于我们将最后的输出层都转为了linear作为激活函数,在最后为了得到使用sigmoid或者softmax函数实现的预测,我们就需要在最后对数据使用tf.nn.softmax(logits)或者tf.nn.sigmoid(logit)来实现逻辑函数的映射,从而得到正确的概率值

梯度下降优化Adam优化器

1.作用

动态的调整学习率的大小

  • 当我们梯度下降方向基本不变时候我们需要较大的学习率,以减少迭代次数
  • 当我们梯度下降方向会来回抖动啥时候,我们就需要较小的学习率,来使得下降方向变得平缓

Adam不会使用固定的学习率,而是为每个参数使用不同的学习率

2.代码实现

卷积层(convolutional layer)

前面课程中,我们一直学习的是全连接层,每一层隐藏层的神经元都由上一层的全部神经元计算得来,而卷积层中的每一个神经元只看前一层的部分内容,这会提高计算效率,降低过拟合风险

以上例子是吴恩达老师所举心电图例子,卷积层中单个神经元只看部分数据

相关推荐
一点一木3 小时前
🚀 2026 年 4 月 GitHub 十大热门项目排行榜 🔥
人工智能·github
做怪小疯子4 小时前
华为笔试0429
python·numpy
Warson_L4 小时前
Dictionary
python
淡海水4 小时前
【AI模型】常见问题与解决方案
人工智能·深度学习·机器学习
HIT_Weston4 小时前
65、【Agent】【OpenCode】用户对话提示词(费米估算)
人工智能·agent·opencode
njsgcs4 小时前
我的知识是以图片保存的,我的任务状态可能也与图片有关,我把100张知识图片丢给vlm实时分析吗
人工智能
星爷AG I4 小时前
20-4 长时工作记忆(AGI基础理论)
人工智能·agi
#卢松松#5 小时前
用秒悟(meoo)制作了一个GEO查询小工具。
人工智能·创业创新
zandy10115 小时前
Agentic BI 架构实战:当AI Agent接管数据建模、指标计算与可视化全链路
人工智能·架构
数字供应链安全产品选型5 小时前
关键领域清单+SBOM:834号令下软件供应链的“精准治理“逻辑与技术落地路径
人工智能·安全