6.吴恩达机器学习——TensorFlow与激活函数

TensorFlow训练细节

对比逻辑回归步骤,在TensorFlow中训练一个神经网络也有三步:网络层定义,损失函数定义,模型拟合;现在的深度学习大部分都是进行的调库使用,理解库中的实现细节有助于我们产生不同想法,要知其然,还要知其所以然。

1.网络层定义

通过Dense()来定义密集层结构,对应于逻辑回归中的第一步

2.损失函数定义

在逻辑回归中,我们通过计算损失函数以及对应的成本函数来实现,而在model.compile(loss=...)中,可以直接使用model.compile(loss=...)来实现

3.数据拟合归一化

在逻辑回归中,计算了成本函数之后,要通过迭代更新,不断更新w和b的值,从而降低成本函数的值,在TensorFlow中使用model.fit()即可实现

激活函数的选择和重要性

1.输出层激活函数选择

在为输出层选择激活函数时候,你通常根据你要预测的Y,会有一个相当自然的选择

  1. 如果你正在实现二分类任务,使用sigmoid是最好的选择
  2. 如果你正在实现回归任务,Y可正可负,使用linear线性激活函数
  3. 如果回归问题中,最终结果非负,使用ReLU激活函数

2.隐藏层激活函数选择

ReLU激活函数是最佳的选择,相比与sigmoid激活函数,ReLU计算速度更快,且只有在图像的左侧才会有平坦的值,这样在计算成本函数时候得到的成本函数的图像会有更好的梯度下降趋势

下图展示的是使用sigmoid造成的成本函数有多个平坦的地方,这就导致梯度下降缓慢

综合选择:隐藏层使用ReLU激活函数,输出层使用sigmoid激活函数

除此之外还有其他更多的激活函数,读者可以自行网上搜索学习

多分类问题激活函数选择

1.什么是多分类

多分类问题本质上是二分类问题的扩展,输出的Y不仅仅是0或者1,可能还有其他更多的值

2.Softmax回归算法

Softmax回归是逻辑回归的泛化,适用于多分类任务

公式实现

且a1+a2+a3+...+an=1;下图详细展示了softmax函数的使用

损失函数实现

以下是逻辑回归和softmax回归损失函数的定义

3.softmax的神经网络实现

但在实际应用中一般不使用这段代码,因为在使用过程中可能会产生数值舍入误差,

复制代码
import tensorflow as tf
from tensorflow.keras import Sequential
from tensorflow.keras.layers import Dense
model = Sequential([
    Dense(units=25, activation='relu'),
    Dense(units=15, activation='relu'),
    Dense(units=10, activation='linear')])
from tensorflow.keras.losses import
SparseCategoricalCrossentropy
model.compile(...,loss=SparseCategoricalCrossentropy(from_logits=True))
# (from_logits=True) 是关键
model.fit(X,Y,epochs=100)
predict	logits = model(X)
f_x = tf.nn.softmax(logits)


model = Sequential([
    Dense(units=25, activation='sigmoid'),
    Dense(units=15, activation='sigmoid'),
    Dense(units=1, activation='linear')
])
from tensorflow.keras.losses import BinaryCrossentropy
model.compile(..., BinaryCrossentropy(from_logits=True))
model.fit(X,Y,epochs=100)
logit = model(X)
f_x = tf.nn.sigmoid(logit)

由于我们将最后的输出层都转为了linear作为激活函数,在最后为了得到使用sigmoid或者softmax函数实现的预测,我们就需要在最后对数据使用tf.nn.softmax(logits)或者tf.nn.sigmoid(logit)来实现逻辑函数的映射,从而得到正确的概率值

梯度下降优化Adam优化器

1.作用

动态的调整学习率的大小

  • 当我们梯度下降方向基本不变时候我们需要较大的学习率,以减少迭代次数
  • 当我们梯度下降方向会来回抖动啥时候,我们就需要较小的学习率,来使得下降方向变得平缓

Adam不会使用固定的学习率,而是为每个参数使用不同的学习率

2.代码实现

卷积层(convolutional layer)

前面课程中,我们一直学习的是全连接层,每一层隐藏层的神经元都由上一层的全部神经元计算得来,而卷积层中的每一个神经元只看前一层的部分内容,这会提高计算效率,降低过拟合风险

以上例子是吴恩达老师所举心电图例子,卷积层中单个神经元只看部分数据

相关推荐
VBsemi-专注于MOSFET研发定制12 分钟前
面向AI水泥厂储能系统的功率器件选型分析——以高可靠、高效率的能源转换与管理系统为例
人工智能·能源
好家伙VCC13 分钟前
**发散创新:基于Python与ROS的机器人运动控制实战解析**在现代机器人系统开发中,**运动控制**是实现智能行为的核心
java·开发语言·python·机器人
2401_8274999913 分钟前
python项目实战09-AI智能伴侣(ai_partner_2-3)
开发语言·python
派葛穆15 分钟前
汇川PLC-Python与汇川easy521plc进行Modbustcp通讯
开发语言·python
海兰19 分钟前
【第2篇】LangChain的初步实践
人工智能·langchain
漫游的渔夫21 分钟前
别再直接 `json.loads` 了!AI 返回的 JSON 坑位指南
前端·人工智能
Warren2Lynch26 分钟前
AI 驱动的 UML 图表支持全景指南
人工智能·架构·uml
代码小书生42 分钟前
Matplotlib,Python 数据可视化核心库!
python·信息可视化·matplotlib
小鱼~~42 分钟前
什么是父进程
人工智能
找了一圈尾巴1 小时前
OpenClaw技能实战:Experience Distiller 让AI从错误中自我进化
人工智能·openclaw