计算机视觉之经典模型汇总

文章目录

早期特征工程模型
- [SIFT(尺度不变特征变换) 2004](#SIFT(尺度不变特征变换) 2004)
- [HOG(方向梯度直方图) 2005](#HOG(方向梯度直方图) 2005)
- [Haar特征 + AdaBoost(2001)](#Haar特征 + AdaBoost(2001))
深度学习模型

早期特征工程模型

SIFT(尺度不变特征变换) 2004

HOG(方向梯度直方图) 2005

Haar特征 + AdaBoost(2001)

深度学习模型

LeNet-5 (1998)

地位：首个成功应用于数字识别的卷积神经网络（CNN），奠定了 CNN 的基础架构。
结构：包含卷积层、池化层、全连接层，输入为 32×32 的手写数字图像。
特点：
- 首次验证了卷积操作（局部感受野、权值共享）在图像处理中的优势，大幅减少参数数量。
- 仅适用于简单任务（如 MNIST 手写数字识别），对复杂图像效果有限。

AlexNet (2012)

地位：深度学习引爆计算机视觉的标志性模型，在 ImageNet 竞赛中准确率远超传统方法。
结构：8 层网络（5 层卷积 + 3 层全连接） ，首次使用 ReLU 激活函数、Dropout 和数据增强。
特点：
- 突破了传统神经网络的计算瓶颈，证明了深度 CNN 在大规模图像识别中的潜力。
- 引入 GPU 加速训练，推动了深度学习硬件和软件的发展。

python 复制代码

import torch.nn as nn 
# AlexNet 网络结构
# 其实就是 前面5个卷积层，后面3个全连接层
# 卷积层：
# 1. 卷积层1：输入3通道，输出96个特征图，卷积核大小11x11，步长4，填充2
# 2. 卷积层2：输入96个特征图，输出256个特征图，卷积核大小5x5，步长2，填充2
# 3. 卷积层3：输入256个特征图，输出384个特征图，卷积核大小3x3，步长1，填充1
# 4. 卷积层4：输入384个特征图，输出384个特征图，卷积核大小3x3，步长1，填充1
# 5. 卷积层5：输入384个特征图，输出256个特征图，卷积核大小3x3，步长1，填充1
# 全连接层：
# 1. 全连接层1：输入256x5x5，输出4096
# 2. 全连接层2：输入4096，输出4096
# 3. 全连接层3：输入4096，输出10
class AlexNet(nn.Module):
    def __init__(self):
        super(AlexNet, self).__init__()
        self.conv = nn.Sequential(
            nn.Conv2d(3,96,kernel_size=11,stride=4),
            nn.ReLU(),
            nn.MaxPool2d(kernel_size=3,stride=2),
            # 减小卷积窗口
            nn.Conv2d(96,256,kernel_size=5,padding=2),
            nn.ReLU(),
            nn.MaxPool2d(kernel_size=3,stride=2),
            # 连续三个卷积层
            nn.Conv2d(256,384,kernel_size=3,padding=1),
            nn.ReLU(),
            nn.Conv2d(384,384,kernel_size=3,padding=1),
            nn.ReLU(),
            nn.Conv2d(384,256,kernel_size=3,padding=1),
            nn.ReLU(),
            nn.MaxPool2d(kernel_size=3,stride=2)
        )
        self.fc = nn.Sequential(
            nn.Linear(256*5*5,4096),
            nn.ReLU(),
            nn.Dropout(0.5),
            nn.Linear(4096,4096),
            nn.ReLU(),
            nn.Dropout(0.5),
            nn.Linear(4096,10)
        )
    def forward(self,img):
        feature = self.conv(img)
        output = self.fc(feature.view(img.shape[0],-1))
        return output

分析

ReLU激活函数，一般在这个卷积层 和全连接层后面，用于：
- 解决梯度消失的问题
- 使得神经网络可以学习到这个复杂的非线性映射
Dropout 这个全连接层使用（卷积层参数共享并且参数量比较少），训练的时候启用，但是推理的时候关闭（PyTorch 会自动处理，通过model.train()和model.eval()控制）
- 通过随机丢弃神经元，减少神经元间的共适应，降低过拟合。
- 相当于集成多个子网络，提升泛化能力

转置卷积

作用：
- CNN 可视化：可将卷积得到的特征图还原到像素空间，用于观察特征图对哪些模式响应最大，从而可视化卷积操作提取出的特征。
- 图像分割：在全卷积网络（FCN）中，需要对图像进行像素级的分割，通过反卷积将特征图尺寸还原到原来的大小，实现上采样操作。
- 生成模型：在生成对抗网络（GAN）中，需要从输入向量生成图像，通过反卷积将提取的特征图还原到和原图同样尺寸的大小，生成最终的图像。
与卷积的区别：卷积通常会使图像尺寸变小，用于提取特征；而反卷积主要用于将特征图尺寸扩大，实现上采样。虽然反卷积看上去像是正向卷积的逆运算，但它只能还原原始图像的尺寸，不能真的恢复原始图像内容，即输出特征图的每个元素值与原始输入图像对应位置的元素值是不一样的。

计算机视觉 之 经典模型汇总

文章目录

早期特征工程模型

SIFT(尺度不变特征变换) 2004

HOG(方向梯度直方图) 2005

Haar特征 + AdaBoost(2001)

深度学习模型

LeNet-5 (1998)

AlexNet (2012)

转置卷积

计算机视觉之经典模型汇总