卷积神经网络 (CNN)

道亦无名2024-04-22 10:30

计算机视觉最常见的机器学习模型体系结构之一是卷积神经网络 (CNN)。 CNN 使用筛选器从图像中提取数值特征图，然后将特征值馈送到深度学习模型中以生成标签预测。例如，在图像分类方案中，标签表示图像的主要主题（换句话说，这是一张关于什么的图像？）。你可以使用不同种类的水果（如苹果、香蕉和橙子）的图像训练一个 CNN 模型，使预测的标签是给定图像中的水果类型。

在 CNN 的训练过程中，筛选器内核最初是使用随机生成的权重值定义的。然后，随着训练过程的进行，根据已知标签值评估模型预测，并调整筛选器权重以提高准确性。最终，经过训练的水果图像分类模型使用能够最好地提取有助于识别不同种类水果特征的筛选器权重。

下图演示了图像分类模型的 CNN 的工作原理：

1、具有已知标签的图像（例如，0：苹果、1：香蕉或 2：橙子）将馈送到网络中以训练模型。

2、当每个图像通过网络馈送时，使用一个或多个筛选器从图像中提取特征。筛选器内核最初是随机分配的权重，并生成称为特征图的数值数组。

3、特征图平展为特征值的一维数组。

4、特征值馈送到完全连接的神经网络中。

5、神经网络的输出层使用 softmax 或类似函数生成包含每个可能类的概率值的结果，例如 [0.2, 0.5, 0.3]。

在训练期间，将输出概率与实际类标签进行比较，例如，香蕉（类 1）的图像应具有值 [0.0, 1.0, 0.0]。预测类分数与实际类分数之间的差异用于计算模型中的损失，并修改完全连接的神经网络中的权重和特征提取层中的筛选器内核，以减少损失。

训练过程会重复多个时期，直到学习到一组最优的权重。然后，保存权重，模型可用于预测标签未知的新图像的标签。