【Datawhale X 李宏毅苹果书 AI夏令营】《深度学习详解》Task2 打卡

文章目录


前言

本文是【Datawhale X 李宏毅苹果书 AI夏令营】的Task2学习笔记打卡。


学习目标

李宏毅老师对应视频课程:https://www.bilibili.com/video/BV1JA411c7VT?p=3

《深度学习详解》第一章主要介绍了深度学习中的基础数学知识。

一、线性模型

经过了前面的梯度下降优化过程以后,我们得到了通过训练数据估计出来的一个数学模型,其中y(预测某天的视频观看次数)和 x 1 x_1 x1(前一天的观看次数有关)。

但是视频观看次数有个周期性的规律,即一周有七天,在周末的时候,人们会去休息放松,所以学习视频的观看次数就会下降(暂时不考虑法定节假日和调休)。

这些模型都是把输入的特征 x 乘上一个权重,再加上一个偏置就得到预测的结果,这样的模型称为线性模型(linear model)。接下来会看如何把线性模型做得更好。

二、分段线性曲线

对于分段线性曲线,线性模型有很大的限制,这一种来自于模型的限制称为模型的偏差,无法模拟真实的情况。

分段曲线可以逼近任何连续曲线

直接写 HardSigmoid 不是很容易,但是可以用一条曲线来理解它,用 Sigmoid 函数来逼近 Hard Sigmoid,如图 1.10 所示。Sigmoid 函数的表达式为
y = c 1 1 + e − ( b + w x 1 ) y = c\frac{1}{1+e^{− (b+wx_1)}} y=c1+e−(b+wx1)1

调整参数,可以绘制出不同的 Sigmoid 函数

在机器学习里面,Sigmoid 或 ReLU 称为激活函数(activation function)。

Q: 优化是找一个可以让损失最小的参数,是否可以穷举所有可能的未知参数的值?

A:只有 w 跟 b 两个参数的前提之下,可以穷举所有可能的 w 跟 b

的值,所以在参数很少的情况下。甚至可能不用梯度下降,不需要优化的技巧。但是参数非常多的时候,就不能使用穷举的方法,需要梯度下降来找出可以让损失最低的参数。

经过上面的多个sigmoid函数的计算,可以得到比较有灵活性的损失函数。

如下图所示,未知参数可以组合成一个向量。

在训练数据和测试数据上的结果是不一致的,这种情况称为过拟合(overfitting)。


总结

每一排称为一层,称为隐藏层(hiddenlayer),很多的隐藏层就"深",这套技术称为深度学习。

相关推荐
lrh1228001 分钟前
详解逻辑回归算法:分类任务核心原理、损失函数与评估方法
人工智能·分类·数据挖掘
StarRocks_labs2 分钟前
不止于极速查询!StarRocks 2025 年度回顾:深耕 Lakehouse,加速 AI 融合
starrocks·人工智能·物化视图·lakehouse·湖仓架构
智驱力人工智能6 分钟前
景区节假日车流实时预警平台 从拥堵治理到体验升级的工程实践 车流量检测 城市路口车流量信号优化方案 学校周边车流量安全分析方案
人工智能·opencv·算法·安全·yolo·边缘计算
Sherlock Ma12 分钟前
强化学习入门(2):DQN、Reinforce、AC、PPO
人工智能·深度学习·机器学习·自然语言处理·transformer·dnn·强化学习
冰西瓜60012 分钟前
从项目入手机器学习(六)—— 深度学习尝试
人工智能·深度学习·机器学习
水境传感 张园园17 分钟前
负氧离子监测站:守护清新空气,畅享健康生活
人工智能·负氧离子监测站
咩咩不吃草18 分钟前
机器学习不平衡数据处理三招:k折交叉验证、下采样与过采样实战
人工智能·算法·机器学习·下采样·过采样·k折交叉验证
TSINGSEE19 分钟前
国标GB28181视频质量诊断:EasyGBS服务插件EasyVQD快速识别花屏、蓝屏、画面冻结抖动
人工智能·音视频·实时音视频·视频编解码·视频质量诊断·花屏检测·画面抖动
技道两进19 分钟前
使用深度神经网络进行时间序列分析之数据窗口
深度学习·tensorflow·时间序列预测·滑动窗口·数据窗口
多恩Stone20 分钟前
【3DV 进阶-11】Trellis.2 数据处理与训练流程图
人工智能·pytorch·python·算法·3d·aigc·流程图