【人工智能】AI 人工智能 技术 学习路径分析 ② ( 深度学习 -> 机器视觉 )

文章目录

AI 学习路径 : Python语言 -> 微积分 / 概率论 / 线性代数 -> 机器学习 -> 深度学习 -> 机器视觉 / 自然语言处理 , 每一步都是下一步的前提 ;
自然语言处理 词向量 RNN/Transformer BERT/GPT 计算机视觉 CNN 目标检测 图像分割 GAN 深度学习 神经网络 框架使用 机器学习 经典算法 模型评估 数学基础 线性代数 微积分 概率论 基础阶段 Python语法 数据结构 常用库

一、第四步:深度学习


1、学习目标

深度学习 是 AI 的 " 进阶算法框架 " , 掌握神经网络的核心原理 , 能 使用 深度学习框架 ( TensorFlow/PyTorch ) 构建、训练复杂模型 , 理解 CNN、RNN、Transformer 等核心网络结构的设计思想 ;

  • 首先 , 使用 PyTorch/TensorFlow 实现 MLP、CNN、LSTM ;
  • 然后 , 复现经典模型 , 如 : ResNet 分类 CIFAR-10 数据集、LSTM 预测股票价格 ;
  • 最终 , 能 独立构建 自定义网络结构 , 调试 训练过程中的问题 ( 如梯度消失、过拟合 ) ;

2、学习内容

① 深度学习基础

深度学习基础 :

  • 神经网络本质 : 神经元 ( 感知机 ) 、激活函数 ( Sigmoid、Tanh、ReLU、Leaky ReLU、Softmax )
  • 网络结构 : 输入层、隐藏层、输出层 ( MLP 多层感知机 , 深度学习入门 )
  • 核心机制 :
    • 前向传播 ( 计算模型输出 )
    • 反向传播 ( 通过链式法则计算梯度 , 更新参数 )
    • 损失函数 , MSE ( 回归 ) 、交叉熵损失 ( 分类 ) 、Focal Loss ( 不平衡分类 )
    • 优化器 , SGD、Adam ( 最常用 ) 、RMSProp ( 自适应学习率 )
  • 正则化与训练技巧 : Dropout、Batch Normalization ( BN ) 、数据增强、学习率调度 ( Learning Rate Scheduling )

② 深度学习框架

深度学习框架 : 推荐优先使用 PyTorch ;

  • PyTorch 框架 : 推荐使用 , 易上手、灵活 , 科研 / 工业界通用 ;
    • 张量 ( Tensor ) 操作 ( 类似 NumPy , 支持 GPU 加速 )
    • 自动求导 ( autograd ) 、计算图
    • 模型构建 ( nn.Module、nn.Linear、nn.Conv2d 等层 )
    • 训练流程 ( DataLoader、Dataset、模型训练 / 验证循环 )
  • TensorFlow/Keras 框架 : 由 谷歌 开发 , 工业界部署友好 ;
    • Keras 高阶 API ( 快速构建模型 )
    • TensorFlow 低阶 API ( 灵活定制模型 )

③ 核心网络结构

核心网络结构 : 这是 AI 应用 的 核心 ;

  • MLP ( 多层感知机 ) : 用于 结构化数据 ( 如表格数据 ) , 深度学习入门 ;
  • CNN ( 卷积神经网络 ) : 用于 图像数据 ( 核心 , 后续机器视觉基础 )
    • 核心组件 : 卷积层 ( Conv ) 、池化层 ( MaxPool/AvgPool ) 、全连接层 ( FC )
    • 经典模型 : LeNet-5 ( 入门 ) 、AlexNet ( CNN 爆发点 ) 、VGG ( 深度堆叠 ) 、ResNet ( 残差连接 , 解决梯度消失 ) 、Inception ( 多尺度特征 )
  • RNN/LSTM/GRU ( 循环神经网络 ) : 用于 序列数据 ( 如文本、时间序列 )
    • 解决问题 : 处理变长序列 ( 如一句话、一段时间序列 )
    • LSTM/GRU : 解决 RNN 梯度消失问题 , NLP 入门核心
  • Transformer ( 革命性结构 ) :
    • 核心机制 : 自注意力机制 ( Self-Attention ) 、多头注意力 ( Multi-Head Attention ) 、位置编码 ( Positional Encoding )
    • 意义 : 替代 RNN , 成为 NLP ( BERT、GPT ) 和视觉 ( Vision Transformer ) 的核心架构
  • 其他重要结构 :
    • 自编码器 ( AutoEncoder ) : 无监督学习、降维、异常检测
    • GAN ( 生成对抗网络 ) : 生成式模型 ( 后续机器视觉重点 )

二、第五步 : 机器视觉 应用方向


1、学习目标

机器视觉 是 人工智能 工程落地 的 应用方向之一 , 将 深度学习 技术 落地到具体场景 , 掌握该方向的核心任务、经典模型和工程工具 , 能独立完成端到端项目 ;

熟练使用 如下 机器视觉工具 : OpenCV ( 图像预处理 ) 、PyTorch/TensorFlow ( 模型训练 ) 、TorchVision ( 视觉模型库 ) 、MM 系列框架 ( MMDetection/MM 分割 )

可以完成如下实践项目 :

  • 入门 : 用 ResNet 分类 CIFAR-10、用 YOLOv8 检测视频中的车辆 ;
  • 进阶 : 用 U-Net 分割医学图像 ( 如肺结节分割 ) 、用 CycleGAN 实现图像风格迁移 ;
  • 目标 : 能独立完成 " 数据标注 -> 模型训练 -> 部署 " 的端到端视觉项目 ;

2、计算机视觉基础

计算机视觉 基础 :

  • 图像本质 : 像素、RGB/BGR 通道、图像分辨率、灰度图 / 彩色图
  • 图像预处理 : OpenCV 工具 ( 图像读取、缩放、旋转、裁剪、滤波、边缘检测 )
  • 视觉数据集 : MNIST ( 手写数字 ) 、CIFAR-10/100 ( 小图像分类 ) 、ImageNet ( 大规模图像分类 ) 、COCO ( 目标检测 / 分割 )

3、核心任务与模型

① 图像分类

图像分类 : 是 机器视觉 的 基础任务 ;

  • 经典模型 : ResNet、EfficientNet ( 轻量化高效模型 ) 、Vision Transformer ( ViT , 用 Transformer 做图像分类 )
  • 核心技巧 : 迁移学习 ( 用预训练模型微调 , 解决小数据集问题 )

② 目标检测

目标检测 : 是 机器学习 的 核心任务 , 主要是 定位 + 分类 任务 ;

  • 定义 : 识别 图像 中 多个目标的位置 和 类别 ;
  • 经典模型 :
    • 两阶段 : Faster R-CNN ( 精确率高 )
    • 一阶段 : YOLO 系列 ( YOLOv5/YOLOv8 , 速度快 , 工业界首选 ) 、SSD
  • 工具 : MMDetection ( 目标检测开源框架 , 快速构建模型 )

③ 图像分割

图像分割 : 机器视觉 精细任务 , 进行像素级分类 ;

  • 定义 : 将图像分割为语义区域 ;
  • 类型 : 语义分割 ( 同一类目标合并 ) 、实例分割 ( 不同实例区分 )
  • 经典模型 :
    • 语义分割 : FCN、U-Net ( 医学图像分割首选 ) 、DeepLab 系列
    • 实例分割 : Mask R-CNN ( 在 Faster R-CNN 基础上添加分割分支 )

④ 生成对抗网络

生成对抗网络 ( GAN ) 应用 的 核心方向 :

  • 图像生成 : DCGAN ( 生成人脸、风景 ) 、StyleGAN ( 生成高清逼真图像 )
  • 图像转换 : CycleGAN ( 风格迁移、图像域转换 )
  • 图像修复 : SRGAN ( 超分辨率重建 , 低清 -> 高清 ) 、InpaintGAN ( 图像补全 )

相关推荐
九千七5261 小时前
sklearn学习(3)数据降维
人工智能·python·学习·机器学习·sklearn
黑客思维者1 小时前
Salesforce Einstein GPT 人机协同运营的核心应用场景与工作流分析
人工智能·gpt·深度学习·salesforce·rag·人机协同·einstein gpt
多恩Stone1 小时前
【ModelScope-1】数据集稀疏检出(Sparse Checkout)来下载指定目录
人工智能·python·算法·aigc
郭庆汝1 小时前
(七)自然语言处理笔记——Ai医生
人工智能·笔记·自然语言处理
生而为虫1 小时前
28.Python处理图像
人工智能·python·计算机视觉·pillow·pygame
Dev7z1 小时前
基于OpenCV和MATLAB的椭圆检测系统的设计与实现
人工智能·opencv·matlab
青春不败 177-3266-05201 小时前
R-Meta分析核心技术:从热点挖掘到高级模型、助力高效科研与论文发表
人工智能·r语言·生态学·meta分析·统计学·环境科学·农业科学
薛定e的猫咪2 小时前
【论文精读】ICLR 2023 --- 作为离线强化学习强表达能力策略类的扩散策略
人工智能·深度学习·机器学习·stable diffusion
写点什么呢2 小时前
使用PE安装Win10系统
学习