回顾 — SFA:简化快速 AlexNet(模糊分类)

模糊图像的样本

一、说明

在本文回顾了基于深度学习的模糊图像分类(SFA)。 在本文中:Simplified-Fast-AlexNet (SFA) 旨在对图像是否因散焦模糊高斯模糊雾霾模糊运动模糊而模糊进行分类。

二、大纲

  1. 图像模糊建模简要概述
  2. 简化快速 AlexNet (SFA):网络架构
  3. 数据集
  4. 实验结果

三、图像模糊建模概述

  • 图像模糊问题可以看作是从高质量图像到低质量模糊图像的图像退化过程:
  • 其中F 表示退化图像,f 是无损图像,h 表示模糊核 ,又名点扩散函数(PSF) ,*表示卷积算子,n 表示附加噪声,这里,n是高斯白噪声。

3.1. 高斯模糊

  • 在许多实际应用中,例如遥感和卫星成像,高斯核函数被视为大气湍流的核函数:
  • 其中,σ 为核半径,R 为支撑区域,通常满足3σ标准

3.2. 运动模糊

  • 运动模糊是另一种需要考虑的模糊,它是由目标和相机之间的相对线性运动引起的:
  • 其中M 表示运动长度(以像素为单位),ω表示运动方向与 x轴之间的角度。

3.3. 散焦模糊

  • 散焦模糊是日常生活中最常见的,可以通过柱面函数来建模:
  • 其中r 表示模糊半径,与散焦程度成正比。

3.4. 雾霾模糊

  • 雾霾模糊是由自然雾的干扰造成的。在本文中,雾霾模糊没有通过任何PSF来模拟,因为现实生活中存在大量样本并且易于收集用于实验应用。

四、简化快速AlexNet(SFA):网络架构

简化快速 AlexNet (SFA):网络架构

  • 5个卷积层1个全连接层
  • AlexNet每个卷积层的输出数 **按0.5的比例进行比例压缩。**这样做的原因是,与 2012 年 ImageNet 分类竞赛中数千个图像类别相比,四种模糊类型分类是一个相对简单的任务。
  • 另一方面,由于80%以上的参数存储在FC中,因此从AlexNet**的原始模型中删除了前两个FC,**以提高速度和实时性。
  • 在第 1、2 和 5 层使用 批量标准化,而不是原始的局部响应标准化。
  • 输入:输入图像的大小为227×227×3。
  • 第一层:Conv_1:48 个大小为 11×11 的核,步长为 4 像素,pad 为 0;MaxPool_1:大小为 3×3 的内核,2 个像素的步长和 0 的填充。获得 48×27×27 的特征图作为输出。
  • 第二层:Conv_2 使用大小为 5×5 的内核、1 像素的步长和 2 像素的垫;MaxPool_2:大小为 3×3 的内核,步长为 1 像素,填充为 0。
  • 第三层:Conv_3:尺寸为 5×5 的内核,1 像素的步长和 2 像素的填充。
  • 第 4 层:Conv_4 为:尺寸为 3×3 的内核,2 像素的步长和 0 的填充。
  • 第5层:Conv_5:尺寸为3×3的内核,1像素的步长和1的垫;MaxPool_5:内核大小为 3×3,步长为 2 像素,pad 为 0。
  • 第 6 层:全连接层和 ReLU。
  • 因此,SFA不同隐藏层的数据流如下: 227×227×3 > 27×27×48 > 13×13×128 > 13×13×192 > 13×13×192 > 6×6× 128 > 1×1×4。
  • 使用咖啡。

五、数据集

5.1. 训练数据集

  • 使用200,000 个 128×128×3 全局模糊块进行训练。
  • 简而言之,这些补丁是从牛津建筑数据集和加州理工学院 101 数据集应用的合成高斯模糊、运动模糊和散焦模糊中裁剪出来的,以及从在线网站收集的真实雾霾模糊图像中裁剪出来的。

5.2. 测试数据集1

  • 选择 Berkeley 数据集 200 张图像和 Pascal VOC 2007 数据集作为测试数据集。
  • 总共获得了22,240 个全局模糊测试样本块,其中 5560 个雾霾模糊图像块与训练样本具有相同的来源。

5.3. 测试数据集2

  • 构建了由10,080 个自然全局模糊图像块组成的数据集。这些样本都是从与训练数据集中的雾霾模糊样本相同的网站收集的。

六、实验结果

6.1. 损耗曲线和精度曲线

AlexNet和SFA 的损失曲线和准确率曲线

  • 尽管AlexNet和SFA这两个模型的细节 有所不同,但损失和准确率都达到了相似的值,这表明两个模型在分类准确率标准方面的性能相当。

6.2. 与AlexNet的比较

与AlexNet的比较

  • P_N:模型参数编号。
  • L_N:模型深度。
  • F_T:单幅图像的前向传播时间。
  • B_T:单幅图像的误差后向传播时间。
  • CLF_T:识别单张图像的时间。
  • Tr_T:模型训练时间。
  • 错误:测试数据集1的分类错误率。

AlexNet的P_N大约是SFA的1000倍。

SFA的CLF_T比AlexNet经济0.5s ,这表明SFA更适合实际应用。

SFA的总训练时间不到一天,而AlexNet则需要大约两天。

SFA的分类错误率仅比AlexNet大0.0105 。

6.3. SOTA比较

  • 两步法[4]、单层神经网络[8]和DNN[9]的分类精度来自原始文章。(这很奇怪,因为数据集不同。但可以理解的是,可能无法重新实现。)
  • Accuracy1 是在测试数据集 1 上进行测试,Accuracy2 是在测试数据集 2 上进行测试。
  • 基于学习特征的方法的预测精度(>90%)通常优于手工制作特征的方法(<90%)。
  • SFA在模拟测试数据集上的分类准确率为96.99% ,略低于AlexNet的97.74%,但仍然优于DNN模型的95.2%。
  • 此外,SFA在自然模糊数据集上的最佳性能为93.75%,略低于94.10%,但SFA的速度和实时性明显优于 AlexNet

七、参考

[2017 ISA] [SFA]
基于深度学习的模糊图像分类 曾锡豪

相关推荐
桃花键神35 分钟前
AI可信论坛亮点:合合信息分享视觉内容安全技术前沿
人工智能
野蛮的大西瓜1 小时前
开源呼叫中心中,如何将ASR与IVR菜单结合,实现动态的IVR交互
人工智能·机器人·自动化·音视频·信息与通信
CountingStars6191 小时前
目标检测常用评估指标(metrics)
人工智能·目标检测·目标跟踪
tangjunjun-owen1 小时前
第四节:GLM-4v-9b模型的tokenizer源码解读
人工智能·glm-4v-9b·多模态大模型教程
冰蓝蓝2 小时前
深度学习中的注意力机制:解锁智能模型的新视角
人工智能·深度学习
橙子小哥的代码世界2 小时前
【计算机视觉基础CV-图像分类】01- 从历史源头到深度时代:一文读懂计算机视觉的进化脉络、核心任务与产业蓝图
人工智能·计算机视觉
新加坡内哥谈技术2 小时前
苏黎世联邦理工学院与加州大学伯克利分校推出MaxInfoRL:平衡内在与外在探索的全新强化学习框架
大数据·人工智能·语言模型
fanstuck3 小时前
Prompt提示工程上手指南(七)Prompt编写实战-基于智能客服问答系统下的Prompt编写
人工智能·数据挖掘·openai
lovelin+v175030409663 小时前
安全性升级:API接口在零信任架构下的安全防护策略
大数据·数据库·人工智能·爬虫·数据分析
唐小旭3 小时前
python3.6搭建pytorch环境
人工智能·pytorch·python