5.1 deep learning introduction

一、深度学习与点云

本节课程主要介绍深度学习基础内容,梯度下降作为核心方法将贯穿讲解过程。

1.深度学习概述 00:16

深度学习概述部分包含以下内容:

  • 网络基本组件的构成原理
  • PointNet及PointNet++的核心架构
1) 预期学习结果 00:39

本节课程需掌握:

  • 网络基本构成的底层逻辑
  • 不同网络架构的对比分析方法
  • PointNet的具体实现方法
  • 目标分类等实际应用场景
2) 人工智能、机器学习与深度学习 01:00
概念层级 定义范畴 典型算法
人工智能 所有模拟智能行为的算法 PID控制器
机器学习 数据驱动的规律挖掘方法 支持向量机、随机森林
深度学习 基于多层神经网络的表征学习 卷积神经网络、全连接网络

深度学习兴起于2010年后,其核心组件原理可追溯至1960年代,现广泛应用于图像识别、语音处理及三维分析等领域。

3) 机器学习与深度学习 03:48
  • 例题:车分类区分机器学习深度学习

传统机器学习流程包含:

  • 人工设计特征(如SIFT、KPC)
  • 分类器处理特征向量(如支持向量机)

深度学习流程则通过端到端网络直接输出分类结果,特征提取与分类合并为统一黑箱系统,但存在可解释性差的缺陷。

4) 深度学习 05:31

深度学习本质是优化问题,通过梯度下降方法求解目标函数最小值。其优势在于解决传统方法难以处理的复杂优化问题,但需注意步长选择对收敛性的影响。

5) 深度学习概述 06:22

深度学习通过优化损失函数实现模型训练,以线性模型为例:

基础形式:

  • y=wTx+by=w^Tx+by=wTx+b

    (可通过齐次坐标简化为y=wTxy=w^Txy=wTx )

  • 例题:房价预测

房价预测模型构建步骤:

  • 定义特征向量 xxx(面积、楼层等)

  • 建立线性关系 y=wTxy=w^Txy=wTx

  • 通过最小化平方误差求解参数www

  • 梯度下降

    • 梯度下降的基本概念

    • 梯度下降适用于f:Rn→Rmf: \mathbb{R}^n \to \mathbb{R}^mf:Rn→Rm的优化问题,核心是通过偏导方向迭代更新参数。

    • 梯度下降算法的原理

迭代公式为:

xn+1=xn−γ∇f(xn)x_{n+1} = x_n - \gamma \nabla f(x_n)xn+1=xn−γ∇f(xn)

其中步长γ\gammaγ需满足f(xn+1)≤f(xn)f(x_{n+1}) \leq f(x_n)f(xn+1)≤f(xn),在驻点处梯度为零。

  • 步长(伽马)的选择

步长选择策略:

  • 过大会导致震荡发散

  • 过小会降低收敛速度

  • 优化器(如SGD、Adam)可动态调整步长

    • 例题1: 多元线性回归中的梯度下降

单样本损失函数JJJ对参数www的偏导计算:

∂J∂w=2(z)x\frac{\partial J}{\partial w} = 2(z)x∂w∂J=2(z)x

其中z=wTx−yz=w^Tx-yz=wTx−y,向量求导遵循分母布局规则。

  • 求导规则

链式法则是反向传播的基础:

dfdx=dgdu⋅dhdx\frac{df}{dx} = \frac{dg}{du} \cdot \frac{dh}{dx}dxdf=dudg⋅dxdh

  • 矩阵求导

矩阵求导布局分为两种:

  • 分母布局:导数维度与分母一致
  • 分子布局:导数维度与分子一致

深度学习通常采用分母布局,因损失函数为标量而参数为向量,输出维度更直观。常见规则包括:

  • 标量对向量求导结果为同维向量

  • 向量对向量求导结果为雅可比矩阵

  • 感知器

线性模型的优化本质是一个神经元,构成神经网络的基本单元。训练参数w和输入x决定输出y。该神经元形式于1968年发明,但深度学习在2010年左右才对人类进程产生重大影响。神经元的数学表达为y=w^T x,其中w为参数向量,x为输入向量,constant one代表偏置项bias,即齐次坐标表达形式。向量点乘运算后需通过激活函数将线性模型转换为非线性模型,以增强模型表达能力。

  • 例题:回归损失函数

衡量预测接近程度的损失函数选择:

  • 标量输出问题(如房价预测)可使用L1损失(绝对值)或L2损失(平方误差)。

  • 梯度下降法通常采用L2损失(如最小二乘法),因其连续可导特性更利于优化。

  • 分类损失函数

分类任务需使用交叉熵损失函数,其核心为衡量预测概率分布q与真实分布p的差异:

  • 单标签分类中,真实分布p为one-hot向量,交叉熵简化为-log(q_y^*),即最大化真实类别的预测概率。

  • 多类别分类需通过softmax函数将输出分数转换为概率分布,公式为softmax(s_i) = e^{s_i} / Σ_j e^{s_j}。

  • 交叉熵最终形式为-log(softmax(s_y^*)),示例中网络输出三类别(狗、猫、青蛙)时,损失值为 - 89。

  • 多层感知机

多层感知机(MLP)由多个神经元堆叠构成:

  • 结构示例:输入层→隐藏层(4神经元)→输出层(2神经元),共20个可训练参数(每条边对应独立权重)。

  • 线性组合局限性:无激活函数时,多层线性变换等效于单层线性模型,无法解决非线性问题(如异或逻辑)。

  • 例题:异或问题

异或(XOR)问题揭示线性模型缺陷:

输入组合 输出 空间分布
(0,0) 0 不可线性分割
(0,1) 1 需非线性边界
(1,0) 1
(1,1) 0
  • 激活函数

激活函数的作用与选择:

  • 核心功能:将线性变换转为非线性,使MLP具备万能逼近定理能力(需至少一层隐藏层)。

  • 历史函数(如sigmoid、tanh)易引发梯度消失/爆炸问题,现代网络常用ReLU等改进函数。

  • 术语等价性:MLP与全连接网络(FC)为同义概念。

  • 如何训练一个MLP

MLP训练方法:

  • 反向传播:高效梯度下降实现,通过链式法则逐层计算梯度并更新参数。

  • 优化器选择:SGD(随机梯度下降)收敛慢但稳定,Adam等自适应算法结合动量加速训练。

  • 卷积神经网络

卷积神经网络(CNN)的核心特性:

  • 局部感受野:卷积核在输入空间(如图像)滑动计算局部特征,参数共享大幅减少计算量。

  • 空间维度扩展:支持一维(时序)、二维(图像)、三维(视频)等多维数据卷积运算。

  • 一维卷积

  • 一维卷积的图示和公式如下:卷积核包含三个元素(k=3),输入为一维数组x,输出为数组y。通过乘法加法运算(如1×3+0×2+2×2=7)生成输出元素。

  • 感知域指每个输出元素对应的输入元素数量。初始情况下,每个y元素的感知域为x中的三个元素。若对y再次卷积得到z,则z在x中的感知域扩展至五个元素。

  • 卷积核在输入数组上滑动计算,直至覆盖全部输入。

  • 为什么用CNN

对比维度 卷积网络 全连接网络
连接方式 稀疏连接(输出仅关联输入局部区域) 密集连接(输出关联全部输入)
参数数量 共享卷积核参数(如3个) 独立参数(如3×6=18个)
特征提取 相同输入产生相同输出(如识别多只狗) 相同输入可能产生不同输出
  • 一维卷积padding

  • 边界处理:通过添加padding(通常为零值)解决边界卷积问题。padding数量可自定义(如左右分别加2和1个零值)。

  • 输出长度公式:无padding时输出长度为n-k+1;有padding时替换n为n+p(p为左右padding总数)。

  • padding规则:需根据输入长度和卷积核大小合理设置,避免无效计算。

  • 一维卷积stride

  • stride作用:通过调整滑动步长(如s=2)减少计算量并扩大感知域。例如s=2时感知域扩展至7个输入元素。

  • 输出长度公式:⌊(n+p-k)/s⌋+1(⌊⌋表示向下取整)。

  • 应用场景:较大感知域有助于图像分类等任务,需覆盖更广的输入区域以获取全局信息。

  • 二维卷积

  • 基本操作:在二维输入(如图像)上沿两个维度滑动卷积核(尺寸为kh×kw),通过乘法加法生成输出矩阵。

  • padding模式 :

    • valid:不加padding,输出尺寸小于输入。
    • same:添加padding使输出尺寸与输入一致。
  • 多卷积核:每个卷积核(共co个)生成一个特征图(feature map),输出为co个矩阵叠加。

  • 输入输出维度:输入为ci×h×w,卷积核为co×kh×kw,输出为co×h'×w'(h'/w'由padding和stride决定)。

  • 池化(Pooling):无参数操作,分为最大池化(取区域最大值)和平均池化(取区域平均值),输出通道数与输入相同。

  • 复杂度计算:与卷积核数量(co)、输入通道数(ci)及输出尺寸(h'×w')成正比。

6) 三维卷积 50:20

二维卷积可扩展为三维卷积,需具备高维空间想象能力。三维卷积核本身为三维结构,输入数据为四维(三维空间加一维通道),输出数据同样为四维。三维卷积核在空间中进行滑动计算,每次滑动通过乘加运算生成一个标量输出,最终堆叠形成完整输出结果。

相关推荐
m0_564876842 小时前
分布式训练DP与DDP
人工智能·深度学习·算法
汪碧康2 小时前
OpenClaw 原版和汉化版windows 和Linux 下的部署实践
linux·人工智能·windows·agent·clawdbot·moltbot·openclaw
川西胖墩墩2 小时前
文生视频AI工具深度评测:2024年主流视频生成模型的技术对比与创作指南
人工智能·数据挖掘·音视频
科技圈快讯2 小时前
智能体工厂引领工业跃迁:美云智数全域AI重构研产供销价值链
人工智能·重构
童话名剑2 小时前
语音识别 与 触发词检测(吴恩达深度学习笔记)
笔记·深度学习·语音识别·触发词检测
lrh1228002 小时前
详解逻辑回归算法:分类任务核心原理、损失函数与评估方法
人工智能·分类·数据挖掘
StarRocks_labs2 小时前
不止于极速查询!StarRocks 2025 年度回顾:深耕 Lakehouse,加速 AI 融合
starrocks·人工智能·物化视图·lakehouse·湖仓架构
智驱力人工智能2 小时前
景区节假日车流实时预警平台 从拥堵治理到体验升级的工程实践 车流量检测 城市路口车流量信号优化方案 学校周边车流量安全分析方案
人工智能·opencv·算法·安全·yolo·边缘计算
Sherlock Ma2 小时前
强化学习入门(2):DQN、Reinforce、AC、PPO
人工智能·深度学习·机器学习·自然语言处理·transformer·dnn·强化学习