在这篇博客中,让我们讨论什么是卷积神经网络 (CNN) 以及 卷积神经网络背后的架构 ------旨在解决 图像识别 系统和分类 问题。 卷积神经网络在图像和视频识别、推荐系统和自然语言处理方面有着 广泛的应用。
计算机如何读取图像?
考虑这张纽约天际线 的图像,第一眼你会看到很多建筑物 和颜色。 那么计算机是如何处理这张图像的呢?
图像分为 3 个颜色通道,即红、绿 和蓝。 每个颜色通道都映射 到图像的像素。
然后,计算机识别与 每个像素相关 的 值并确定图像的大小。
然而,对于黑白 图像,只有一个通道 ,概念 是相同的。
为什么不是全连接网络?
当涉及到卷积神经网络 时,我们无法使用全连接网络,原因如下!
考虑下图:
在这里,我们考虑了 大小 为28x28x3 像素的图像输入。如果我们将其输入 到卷积神经网络,则第一个隐藏层本身将有大约2352个 权重。
但这种情况并不实用。现在,看看这个:
任何通用 输入图像的 大小至少 为200x200x3像素 。第一个隐藏层的大小变成了惊人的 120,000 。如果这只是第一个 隐藏层,想象一下处理整个 复杂图像集所需 的神经元数量。
这会导致过度拟合 并且不切实际。因此,我们无法利用完全连接的网络。
什么是卷积神经网络?
卷积神经网络与神经网络一样,由具有可学习 权重 和偏差的 神经元 组成。每个神经元 接收多个输入 ,对它们进行加权求和 ,将其传递给 激活 函数 并以输出响应。
整个网络具有损失 函数 ,我们为神经网络开发的所有提示和技巧仍然适用于卷积神经网络。
很简单,对吧?
神经网络 ,顾名思义,是一种模仿大脑结构的 机器学习技术 。它由称为神经元的学习单元网络组成。
这些神经元 学习如何将 输入信号 (例如猫的图片)转换为相应的 输出信号 (例如标签"猫"),形成自动识别的基础。
我们以自动图像识别为例 。 确定 图片 是否包含猫的 过程涉及 激活函数 。如果图片与神经元之前见过的猫图像相似, "猫" 标签就会被激活。
因此, 神经元接触 到的标记图像越多 ,它就越能 学会如何识别其他未标记的图像。我们称之为训练神经元的过程 。
卷积神经网络的起源
神经网络的智能是不可思议的。 虽然Rosenblatt早在20 世纪 60 年代就 开始研究 人工神经网络 , 但直到2000 年代 末,使用神经网络的深度学习才开始兴起。 关键的推动因素是 计算能力 和数据集 的规模,而谷歌 在深度学习方面的开创性研究。2012 年 7 月,谷歌 的研究人员将先进的神经网络 暴露于从网络上截取的一系列未标记的 静态图像视频。
令他们惊讶的是, 他们发现神经网络自己学习了 一个猫检测神经元 ,这支持了 "互联网是由猫组成的" 这一流行说法。
卷积神经网络如何工作?
在卷积神经网络中我们应该理解四个分层 概念:
- 卷积,
- 热卢,
- 汇集和
- 全连接(全连接层)。
让我们首先看一个简单的例子:
CNN 示例:
考虑下图:
这里,有 X 和 O 的多种演绎。这使得计算机很难识别。但目标是,如果输入信号 看起来像以前 看过的图像, "图像"参考 信号将混合到输入信号中,或与输入信号 进行卷积 。然后将所得的输出 信号传递到下一层。
因此,计算机可以理解 每个像素。在本例中,白色 像素为**-1**,而黑色 像素为1。 这正是我们在基本二元分类中实现区分像素的方法。
现在, 如果我们通常搜索 并比较 普通图像和另一个"x"再现之间的值,我们 会得到很多丢失 的像素。
那么,我们该如何解决这个问题呢?
我们采用称为过滤器 的小块像素 并尝试匹配 将它们放在相应的附近 位置,看看我们是否得到匹配。 通过这样做,卷积神经网络在发现相似性方面 比直接尝试匹配整个图像要好得多 。
图像的卷积
卷积具有平移不变性 的良好特性 。直观上,这意味着每个 卷积滤波器代表一个感兴趣的特征(例如 字母中的像素) ,并且卷积神经网络算法 学习哪些特征 构成最终的参考(即字母表)。
我们有4 个卷积步骤:
- 将特征和图像对齐
- 将 每个图像 像素乘以相应的特征像素
- 将值相加并求出 总和
- 将 总和除以特征 中的像素总数
考虑上图 - 正如您所看到的,我们已经完成 了前2 个步骤 。我们考虑了一张特征图像 和其中的一个像素。 我们将其与现有图像 相乘 ,并将乘积存储在另一个缓冲区特征图像中。
通过这张图片, 我们完成了最后2 个步骤。 我们将得出总和的值相加 。 然后,我们将该 数字除以特征图像 中的像素总数 。 完成后,获得的最终值 将放置在滤波图像 的中心,如下所示:
现在,我们可以移动 这个 滤镜 ,并对图像中的任何像素 执行相同的操作。 为了更清楚起见, 让我们考虑另一个例子:
如您所见,执行前 4 个步骤后,我们的值为 0.55!我们采用该值并将其放置在图像中,如前所述。这是在下图中完成的:
类似地,我们将特征移动到图像中的每个其他位置,并查看该特征如何与该区域匹配。因此,完成此操作后,我们将得到输出:
这里我们只考虑一种过滤器。类似地,我们将与其他每个过滤器执行相同的卷积以获得该过滤器的卷积。
输出信号强度 不取决于特征 所在的位置,而仅取决于特征 是否 存在 。 因此,字母表可能位于不同的位置 ,卷积神经网络 算法仍然能够识别它。
ReLU层
ReLU 是一种激活函数。但是,什么是激活函数?
整流线性单元(ReLU)变换函数仅在输入高于一定量时才激活节点,而输入低于零时,输出为零,但当输入上升到一定阈值以上时,与输入呈线性关系。因变量。
考虑下面的例子:
我们考虑了一个具有上述值的简单函数。因此,只有当该值是由因变量获得时,该函数才会执行操作。对于本示例,获得以下值:
为什么这里需要 ReLU?
主要目的是消除卷积中的所有负值。所有正值保持不变,但所有负值都更改为零,如下所示:
因此,在处理这个特定功能后,我们得到以下输出:
现在,类似地,我们也对所有其他特征图像执行相同的过程:
来自卷积层的输入可以被 " 平滑 " ,以降低 滤波器 对噪声 和变化的敏感性 。 这种平滑过程称为 子采样 ,可以通过对信号样本 取平均值 或取最大值来 实现。
池化层
在这一层中,我们将图像 堆栈缩小 到更小的尺寸。 池化是在经过激活层 之后完成的。我们通过实施以下 4 个步骤来做到这一点:
- 选择窗口大小(通常为 2 或 3)
- 选择步幅(通常为 2)
- 在经过过滤的 图像上 走过你的窗户
- 从每个窗口 中取最大值
让我们通过一个例子来理解这一点。考虑使用窗口大小为 2 且步长也为 2 来执行池化。
