目录
- [一、 视觉流派:卷积神经网络(CNN)](#一、 视觉流派:卷积神经网络(CNN))
- [二、 序列流派:循环神经网络(RNN)与 LSTM](#二、 序列流派:循环神经网络(RNN)与 LSTM)
- [三、 生成流派:生成对抗网络(GAN)](#三、 生成流派:生成对抗网络(GAN))
一、 视觉流派:卷积神经网络(CNN)
1. CNN的本质
- 本质:空间特征提取器。
- 它是做什么的:CNN模仿人类的视觉皮层。它通过一个"互动窗口"(卷积核)在图像上扫描,提取局部的特征(如线条、边缘),再逐渐组合成复杂的图形(如眼睛、轮子)。
- CNN输出尺寸怎么算(点击跳转)
2. 基于CNN的图像分类算法
- 核心逻辑:给模型一张图,它输出一个标签(如猫、狗、法拉利)。
- 经典模型:ResNet(解决网络太深学不懂的问题)。
- 现实应用:手机相册的自动分类、垃圾分类摄像头。
- CNN的图像算法变迁史(概述)
3. 基于CNN的图像检测算法
- 核心逻辑:"它在哪?是什么?"分类只管标签,检测还要在图上画出"框"。
- 经典模型:YOLO(快到可以实时检测)、Faster R-CNN(更准)
- 现实应用:自动驾驶中识别行人、交通灯;安检时识别违禁品。
- 基于CNN的图像检测算法
二、 序列流派:循环神经网络(RNN)与 LSTM
处理完"空间"信息,接下来要处理"时间"信息。
4. 循环神经网络(RNN)
- 本质: 有权重的循环反馈。
- 它是做什么的: 传统的神经网络每一跳都是独立的,但人类理解语言是看前后文的。RNN 加入了一个"循环",让上一时刻的信息能影响下一时刻。
- 现实应用: 简单的天气预报预测、输入法提示词。
- 痛点: RNN 记性不好,处理太长的句子时,前面的信息就"弄丢了"(梯度消失)。
5. 长短期记忆模型(LSTM)
- 本质: 带"门控单元"的记录本。
- 它是做什么的: 为了解决 RNN 记性差的问题,LSTM 引入了"遗忘门"、"输入门"和"输出门"。它能自主决定哪些信息该永久记住,哪些该立刻忘掉。
- 现实应用: 语音助手(Siri)、机器翻译(Google Translate)、股票长周期预测。
三、 生成流派:生成对抗网络(GAN)
6. 生成对抗网络(GAN)
- 本质: 博弈与博弈中的进化。
- 它是做什么的: GAN 由两个模型组成:生成器(画假画的骗子)和判别器(识破假画的警察)。警察逼着骗子画得越来越像,骗子逼着警察眼力越来越稳。最终,骗子画出的画连专家都分不清真假。
- 现实应用:
- 艺术创作: 只要输入"梵高风格",就能把普通照片变油画。
- 数据增强: 医学影像数据不够时,用 GAN 生成逼真的虚假病例图来训练 AI。
- Deepfake: 变脸视频。