卷积神经网络教程 (CNN) – 使用 TensorFlow 在 Python 中开发图像分类器

在这篇博客中,让我们讨论什么是卷积神经网络 (CNN) 以及 卷积神经网络背后的架构 ------旨在解决 图像识别 系统和分类 问题。 卷积神经网络在图像和视频识别、推荐系统和自然语言处理方面有着 广泛的应用

计算机如何读取图像?

考虑这张纽约天际线 的图像,第一眼你会看到很多建筑物颜色。 那么计算机是如何处理这张图像的呢?

图像分为 3 个颜色通道,即红、绿蓝。 每个颜色通道都映射图像的像素。

然后,计算机识别与 每个像素相关 值并确定图像的大小。

然而,对于黑白 图像,只有一个通道概念相同的。


为什么不是全连接网络?

当涉及到卷积神经网络 时,我们无法使用全连接网络,原因如下!

考虑下图:

在这里,我们考虑了 大小28x28x3 像素的图像输入。如果我们将其输入 到卷积神经网络,则第一个隐藏层本身将有大约2352 权重

但这种情况并不实用。现在,看看这个:

任何通用 输入图像的 大小至少 为200x200x3像素 。第一个隐藏层的大小变成了惊人的 120,000 。如果这只是第一个 隐藏层,想象一下处理整个 复杂图像集所需 的神经元数量。

这会导致过度拟合 并且不切实际。因此,我们无法利用完全连接的网络。


什么是卷积神经网络?

卷积神经网络与神经网络一样,由具有可学习 权重偏差的 神经元 组成。每个神经元 接收多个输入 ,对它们进行加权求和 ,将其传递给 激活 函数 并以输出响应。

整个网络具有损失 函数 ,我们为神经网络开发的所有提示和技巧仍然适用于卷积神经网络。

很简单,对吧?

神经网络 ,顾名思义,是一种模仿大脑结构的 机器学习技术它由称为神经元的学习单元网络组成。

这些神经元 学习如何将 输入信号 (例如猫的图片)转换为相应的 输出信号 (例如标签"猫"),形成自动识别的基础。

我们以自动图像识别为例 确定 图片 是否包含猫的 过程涉及 激活函数 。如果图片与神经元之前见过的猫图像相似, "猫" 标签就会被激活。

因此, 神经元接触 到的标记图像越 ,它就越能 学会如何识别其他未标记的图像。我们称之为训练神经元的过程 。


卷积神经网络的起源

神经网络的智能是不可思议的。 虽然Rosenblatt早在20 世纪 60 年代就 开始研究 人工神经网络 但直到2000 年代 末,使用神经网络的深度学习才开始兴起。 关键的推动因素是 计算能力数据集 的规模,而谷歌 在深度学习方面的开创性研究。2012 年 7 月,谷歌 的研究人员将先进的神经网络 暴露于从​网络上截取的一系列未标记的 静态图像视频。

令他们惊讶的是, 他们发现神经网络自己学习了 一个猫检测神经元 ,这支持了 "互联网是由猫组成的" 这一流行说法。


卷积神经网络如何工作?

在卷积神经网络中我们应该理解四个分层 概念

  1. 卷积,
  2. 热卢,
  3. 汇集和
  4. 全连接(全连接层)。

让我们首先看一个简单的例子:

CNN 示例:

考虑下图:

这里,有 X 和 O 的多种演绎。这使得计算机很难识别。但目标是,如果输入信号 看起来像以前 看过的图像, "图像"参考 信号将混合到输入信号中,或与输入信号 进行卷积 。然后将所得的输出 信号传递到下一层。

因此,计算机可以理解 每个像素。在本例中,白色 像素为**-1**,而黑色 像素为1。 这正是我们在基本二元分类中实现区分像素的方法。

现在, 如果我们通常搜索比较 普通图像和另一个"x"再现之间的值,我们 会得到很多丢失 的像素。

那么,我们该如何解决这个问题呢?

我们采用称为过滤器小块像素 并尝试匹配 将它们放在相应的附近 位置,看看我们是否得到匹配。 通过这样做,卷积神经网络在发现相似性方面 比直接尝试匹配整个图像要好得多


图像的卷积

卷积具有平移不变性 的良好特性 。直观上,这意味着每个 卷积滤波器代表一个感兴趣的特征(例如 字母中的像素) ,并且卷积神经网络算法 学习哪些特征 构成最终的参考(即字母表)。

我们有4 个卷积步骤:

  • 将特征和图像对齐
  • 每个图像 像素乘以相应的特征像素
  • 将值相加并求出 总和
  • 总和除以特征 中的像素总数

考虑上图 - 正如您所看到的,我们已经完成 了前2 个步骤 。我们考虑了一张特征图像 和其中的一个像素。 我们将其与现有图像 相乘 ,并将乘积存储在另一个缓冲区特征图像中。

通过这张图片, 我们完成了最后2 个步骤。 我们将得出总和的值相加 然后,我们将该 数字除以特征图像 中的像素总数 完成后,获得的最终值 将放置在滤波图像中心,如下所示:

现在,我们可以移动 这个 滤镜 ,并对图像中的任何像素 执行相同的操作。 为了更清楚起见, 让我们考虑另一个例子:

如您所见,执行前 4 个步骤后,我们的值为 0.55!我们采用该值并将其放置在图像中,如前所述。这是在下图中完成的:

类似地,我们将特征移动到图像中的每个其他位置,并查看该特征如何与该区域匹配。因此,完成此操作后,我们将得到输出:

这里我们只考虑一种过滤器。类似地,我们将与其他每个过滤器执行相同的卷积以获得该过滤器的卷积。

输出信号强度 不取决于特征 所在的位置,而仅取决于特征 是否 存在 因此,字母表可能位于不同的位置卷积神经网络 算法仍然能够识别它。


ReLU层

ReLU 是一种激活函数。但是,什么是激活函数?

整流线性单元(ReLU)变换函数仅在输入高于一定量时才激活节点,而输入低于零时,输出为零,但当输入上升到一定阈值以上时,与输入呈线性关系。因变量。

考虑下面的例子:

我们考虑了一个具有上述值的简单函数。因此,只有当该值是由因变量获得时,该函数才会执行操作。对于本示例,获得以下值:

为什么这里需要 ReLU?

主要目的是消除卷积中的所有负值。所有正值保持不变,但所有负值都更改为零,如下所示:

因此,在处理这个特定功能后,我们得到以下输出:

现在,类似地,我们也对所有其他特征图像执行相同的过程:

来自卷积层的输入可以被 " 平滑 " ,以降低 滤波器噪声 和变化的敏感性 这种平滑过程称为 子采样 ,可以通过对信号样本平均值 或取最大值来 实现。


池化层

在这一层中,我们将图像 堆栈缩小更小的尺寸。 池化是在经过激活层 之后完成的。我们通过实施以下 4 个步骤来做到这一点:

  • 选择窗口大小(通常为 2 或 3)
  • 选择步幅(通常为 2)
  • 在经过过滤的 图像 走过你的窗户
  • 从每个窗口 中取最大值

让我们通过一个例子来理解这一点。考虑使用窗口大小为 2 且步长也为 2 来执行池化。

相关推荐
九年义务漏网鲨鱼2 小时前
【大模型学习 | MINIGPT-4原理】
人工智能·深度学习·学习·语言模型·多模态
元宇宙时间3 小时前
Playfun即将开启大型Web3线上活动,打造沉浸式GameFi体验生态
人工智能·去中心化·区块链
开发者工具分享3 小时前
文本音频违规识别工具排行榜(12选)
人工智能·音视频
产品经理独孤虾3 小时前
人工智能大模型如何助力电商产品经理打造高效的商品工业属性画像
人工智能·机器学习·ai·大模型·产品经理·商品画像·商品工业属性
老任与码3 小时前
Spring AI Alibaba(1)——基本使用
java·人工智能·后端·springaialibaba
蹦蹦跳跳真可爱5893 小时前
Python----OpenCV(图像増强——高通滤波(索贝尔算子、沙尔算子、拉普拉斯算子),图像浮雕与特效处理)
人工智能·python·opencv·计算机视觉
nananaij4 小时前
【Python进阶篇 面向对象程序设计(3) 继承】
开发语言·python·神经网络·pycharm
雷羿 LexChien4 小时前
从 Prompt 管理到人格稳定:探索 Cursor AI 编辑器如何赋能 Prompt 工程与人格风格设计(上)
人工智能·python·llm·编辑器·prompt
两棵雪松4 小时前
如何通过向量化技术比较两段文本是否相似?
人工智能
heart000_14 小时前
128K 长文本处理实战:腾讯混元 + 云函数 SCF 构建 PDF 摘要生成器
人工智能·自然语言处理·pdf