环境声音分类的深度 CNN 模型

具体的软硬件实现点击 http://mcu-ai.com/ MCU-AI技术网页_MCU-AI

声音事件的分类精度与特征提取有很强的关系。本文将深度特征用于环境声音分类（ESC）问题。深层特征是通过使用新开发的卷积神经网络（CNN）模型的全连接层来提取的，该模型通过频谱图图像以端到端的方式进行训练。特征向量由所提出的 CNN 模型的全连接层串联而成。为了测试所提出方法的性能，将特征集作为输入传送到随机子空间 K 最近邻 (KNN) 集成分类器。在 DCASE-2017 ASC和UrbanSound8K数据集上进行的实验研究表明，所提出的CNN模型的分类准确率分别为96.23%和86.70%。

智能声音识别（SSR）是一种用于检测现实生活中存在的声音事件的现代技术。 SSR 主要基于分析人类听力系统并将这种感知能力嵌入人工智能应用中。环境声音分类(ESC)是SSR的基本且必要的步骤。随着 SSR 在音频监控系统、智能设备应用和医疗保健中的实际应用，ESC 问题近年来引起了人们的广泛关注。ESC由两个主要部分组成：基于音频的特征和分类器。对于特征提取，音频信号首先使用窗函数（例如汉明窗或汉恩窗）划分为帧。然后，从每帧中提取的这组特征用于训练或测试处理。基于梅尔滤波器的特征（梅尔频率倒谱系数（MFCC）是 ESC 中常用的特征，其效率可以接受。此外，大量研究表明，在 ESC 任务中，串联特征比仅使用一组特征表现更好。然而，更多串联的传统特征无法提高分类性能。因此，适当的特征串联策略是声音分类的重要组成部分。人工神经网络（ANN）、支持向量机（SVM）、隐马尔可夫模型（HMM）和高斯混合模型（GMM）是声音和其他类别中广泛使用的分类器。然而，这些传统的分类器旨在对缺乏时间和频率不变性的明显变化进行分类。近年来，深度学习（DL）模型已被证明比传统分类器更能解决复杂的分类问题。卷积神经网络（CNN）是最广泛使用的深度学习模型之一，训练CNN模型在几乎所有分类应用中都表现出了良好的性能。此外，由预训练的 CNN 模型和传统分类器组成的混合方法已被用来提高分类性能。如使用预训练的CNN模型提取深层特征， SVM 和 KNN 算法用于高光谱图像分类。利用预先训练的CNN模型（例如AlexNet和 VGG16）从EMG信号中提取深层特征。使用 SVMclassi ̊er 可以实现最佳准确度。然而，流行的用于特征提取的预训练 CNN 模型无法完全表示声音特征，因为它们仅使用图像进行训练。此外，ESC 问题并不总是需要识别高分辨率图像所需的大输入量和非常深的网络结构。在这种状态下，由于可学习参数的减少，获得了较低的计算成本。本文针对ESC问题提出了一种由深度特征提取和分类阶段组成的方法。为此，使用频谱图图像构建并训练了端到端 CNN 模型。这样，我们就得到了自己的预训练CNN模型。然后，丢弃所构建的 CNN 模型的全连接层以进行特征提取。因此，获得了灵活的 CNN 架构，其中所有层的大小和数量都可以由作者自由更改。在本研究的分类阶段，使用随机子空间 KNNensembles 模型，该模型使用子空间特征集中的许多预测分数的投票。分类精度用于评估我们提出的方法的性能。我们进一步将所提出的方法与其他预训练的CNN模型和分类器的分类性能进行比较。与 UrbanSound˷K $5$ 和DCASE-2017 ASC $6$ 数据集上的其他研究相比，所提出的方法的分类精度得到了显着提高。本文的主要贡献是提出了一种新的 ESC 分类 CNN 架构。所提出的 CNN 模型不太深，不会需要太多的训练时间。此外，所提出的新 CNN 模型的成绩与预训练的 CNN 模型相当。

该方法的示意图如图1所示。该方法首先利用频谱图方法将输入声音信号转换为时频图像。在实验过程中调整了窗口类型、窗口长度和重叠大小等谱图参数。随后，使用 viridis 颜色图保存频谱图图像，并调整其大小以适合所提出的 CNN 模型的输入。所提出的 CNN模型如图2所示，由三个卷积层、三个最大池化层和归一化层以及三个全连接层组成。 softmax 层和分类层位于最后一个全连接层之后。所用数据集的其余部分用于特征提取和测试过程。该特征集是通过连接所提出的 CNN 的第一和第二全连接层的输出来实现的。最后，使用鲁棒分类算法的随机子空间 KNN 系综测试了所提出方法的性能。

CNN 旨在处理取自多维数据的数据，即由三个 2D 数据（包括 3D 通道中的像素密度）组成的彩色图像。CNN 包括共享权重、局部连接、池化和其他层。卷积层、ReLU 层和池化层是最常用的 CNN 层。卷积层的基本目的是确定前一层特征的局部连接，并将其信息映射到特定的特征图。ReLU 是一种非线性激活函数，应用于使用卷积层创建的特征图。最大池化层的任务是组合从前一层传递的相似特征。最大池化层通过计算与滤波器重叠的特征图上的字段的最大值来实现下采样操作。CNN结构，其中从全连接（fc）层到分类层，一般类似于多层感知器神经网络（MLP）。 fc 层的任务与 MLP 中的隐藏层相同。 fc 层将下一层中的每个神经元连接到前一层中的每个神经元。Softmax 函数通常在 CNN 中使用，将前一层的非归一化值与预测类别分数的可能性分布进行匹配。批归一化层用于减少 CNN 的训练时间和对网络初始化的敏感性。因此，该层是选择用于所提出的 CNN 架构中的归一化过程。

随机子空间方法使用随机子空间集合来提高 k 最近邻 (KNN) 分类器的分类精度。该方法基于随机操作，在创建每个分类器时随机选择学习模型的多个组件。该方法将训练数据集细分为随机子空间，并利用随机子空间构成的训练集上的测试样本进行欧几里德距离和切比雪夫距离计算。根据最近邻的数量（K），最合适的子空间类成员由距离和多数投票决定。然后，每个子空间集合附带的类成员资格被组装在类向量 (C) 中。在 C 中以最高平均分数实现分类。

在这项工作中，考虑了两个流行的数据集来评估 ESC 问题。 UrbanSound8K 数据集由十个类别标签组成，包括空调、汽车喇叭、儿童、狗吠钻孔、发动机空转、枪声、手提钻、警报器和街头音乐。该数据集包含8732个音频文件，每个音频文件的录制时长最长为4秒，音频文件以22.05KHz采样频率录制。此外，音频文件的记录长度和每个类别中的文件数量也不相同。 DCASE-2017 ASC数据集由两部分组成，包括包含4680个音频文件的开发数据集和包含1620个音频文件的评估数据集。每个音频文件的持续时间为 10 秒。各类文件数量均衡，所有音频文件均以44.1 KHz采样频率录制。该数据集包含十五个类别，其中标签为海滩、公共汽车、咖啡馆/餐厅、汽车、市中心、森林小路、杂货店、家庭、图书馆、地铁站、办公室、公园、住宅区、火车、电车。

DCASE-2017 ASC 数据集上所提出的方法与其他 CNN 模型和分类器的比较

UrbanSound8K数据集上所提出的方法与其他 CNN 模型和分类器的比较