【论文写作】基于深度学习的异常检测方法（Deep learning-based anomaly detection methods）

摘要 随着5G时代的到来，网络安全也是人们逐渐关注的话题。针对网络安全这部分，异常检测是重点之一，异常检测在金融欺诈检测、医疗诊断、网络安全等方面得到了广泛的应用。现已有许多研究者研究了基于深度学习的异常检测这一个热点话题，因此本文将针对基于深度学习的异常检测进行分类，并指出问题所在以及各方法的原理、优缺点和应用场景，同时叙述未来可能的前景。

关键词：网络安全；深度学习；异常检测

1.引言

目前异常检测技术广泛应用于金融欺诈检测 $1$ 、医疗诊断 $2$ 、网络安全 $3$ 、工业领域 $4$ 、区块链 $5$ 等方面。由于深度学习在学习及处理复杂数据方面效果较好，因此深度学习可以帮助异常检测很好地处理复杂数据的检测问题。目前比较热门的应用是基于深度学习的异常检测（简称：深度异常检测）。现实中正常数据较多，而异常数据比较罕见，且其异常特征具有代表性，故较多的异常检测方法是基于正常数据构建正常数据模型，然后判断出异常数据。

本文将对各种深度异常检测方法进行分类，并对各方法的原理，优缺点和应用进行阐述。本文的其他部分安排如下：问题与挑战部分简述异常检测时存在的挑战和问题；研究现状部分按时间顺序对基于深度学习的异常检测进行简述；总结与展望部分对本文进行总结，并指出未来的研究方向。

2.问题与挑战

由于异常是一些少数且不可预测的事件，从而导致异常检测存在着一些复杂问题，如下 $6$ ：

（1）未知性：事件在发生之前是未知的，从而可能导致一些异常。例如网络入侵。

（2）异常类的异构性：不同的异常类可能具有完全不同的异常特征。例如在监控视频中，有人摔倒和抢劫在视觉上有很大的不同。

（3）罕见性和数据类型分布不平衡：异常数据较少，故收集大量异常数据较为困难，并且正常和异常数据分类不平衡。

（4）异常类别的多样性：现已将异常划分为点异常、条件异常和聚集异常。

由于以上复杂问题，使得异常检测遇到很多挑战，近几年，基于深度学习的异常检测对解决这些挑战起到重要作用，其中一些挑战得到了很好的解决，但是有些挑战尚未解决。挑战如下：

（1）异常检测召回率低。异常的罕见性和类别多样性，正常与异常的定义多样且边界不够清晰，故难以收集全部异常数据，误判数据。而在现实应用中无监督方法仍存在高阳性，因此提高异常检测召回率对于异常检测尤为重要。

（2）对高维数据和非独立数据的异常检测。低维数据空间中异常特征较为明显，而在高维数据空间中难以发现，则对高维数据进行异常检测具有挑战。识别数据复杂特征关系和耦合尤为必要，且仍是异常检测的主要挑战。

（3）正常数据和异常数据的高效学习。有监督方法需要有标记的异常和正常数据，而异常数据较少，故有监督方法不实际。收集正常标签数据和少量异常数据较为容易，故可使用弱监督和半监督的方法，从而面临的挑战有：使用少量异常标签数据得到数据类型表示和学习可泛化模型。

（4）抗噪音异常检测。许多弱监督和半监督异常检测都假设在无噪音标签数据集上训练，而实际上可能存在误标记数据；无监督检测方法不需要标记数据。现实中，存在异常数据未标记以及近似异常的数据的情况，从而噪声数据比重及分布不均仍是一个挑战。

（5）复杂异常的检测。现有方法大多数仅适用于点异常检测，且主要集中于检测单数据源，故需要进行多数据源检测，泛化模型以适用所有异常类型。

（6）异常解释。目前异常检测的研究未对已识别异常解释，故需获取异常解释，研发可解释性模型，从而平衡模型可解释性与有效性。

3.研究现状

现已有许多学者对基于深度学习的异常检测进行研究。故本节将对已有的方法按照邻近度、分类、聚类、神经网络这四个类别进行分类阐述方法的原理、成果、优缺点以及应用。

3.1 基于邻近度的方法

基于近似精度熵的异常值检测算法（ODAAE） $7$ ，用于粗糙集的框架中，使用一种称为AAE（近似精度熵）的基于离群因子的度量来量化任何给定对象的离群程度，从而解决最近邻域的大小确定问题。其中，近似精度熵是香农信息熵在粗糙集中的扩展。该实验结果表明，在真实数据集上，所提出的算法对于异常值检测是有效的。与现有的基于邻近度的方法相比，ODAAE不需要任何用户自定义参数，并且可以避免现有方法昂贵的计算成本。该方法对对离散数据的处理效果更好。为了处理连续属性，需要采用离散化方法。由于连续属性的离散化可能会导致信息丢失，故还可将模型扩展为在不离散化的情况下处理连续属性。

框架 $8$ 主要通过使用代理监督从原始未标记数据创建多个伪类，利用有鉴别力的 DNN 进行表示学习，利用内围层优先级（inlier priority）新属性通过判别性DNN实现端到端 UOD，使用基于负熵的分数进行度量异常值。由于内围层数据和外围层数据不区别地输入网络进行训练时，内围层数据和外围层数剧内在的类别不平衡性将使网络优先考虑最小化异常值的损失，从能够直接从DNN的输出中区分异常值。实验结果表明，该方法显着提高了UOD性能高达30% AUROC。该框架可以从原始图像数据中实现有效的端到端UOD，但是还需要探索不同的网络架构、代理监督操作和评分策略。

图1 代理监督工作流(a)和学习表征的比较(b)

针对深度神经网络需要大规模标记数据很难适用于无监督学习任务这一问题，王虎提出通过训练神经网络来预测随机投影空间中的数据距离，从而在不使用任何标记数据的情况下学习特征 $9$ 。其中，随机映射是一种经过理论验证的获得近似保留距离的方法，优化表示学习器来学习隐式嵌入随机投影空间中的真实类结构从而更好地预测这些随机距离。实验结果表明，该方法学习到的表示在异常检测和聚类任务中效果更优。当该方法中的损失函数仍可以使用另外一个超参数进行控制权重。

图2 随机距离预测（RDP）框架

基于机器学习的主动微波链路异常检测（PMADS） $10$ 主要使用异常链接通常具有相似的网络拓扑属性来提高检测精度，用基于网络嵌入的方法将拓扑信息编码为特征，使用ADAL主动学习算法通过用无监督学习将异常作为异常值从训练集中分离出来来低成本持续更新检测模型。该方法可以有效地进行微波链路的异常检测，从而保持数据传输的稳健性。该方法能够实现高精度和高召回率，可服务于LTE网络。

图3 PMADS体系结构

针对超参数的最佳默认值确定问题，Oliver Urs Lenz提出了平均局部邻近度（ALP） $11$ 来解决基于最近邻距离的现有方法的某些问题，且通过大量的一分类问题确定了ALP和现有描述符的最优默认超参数值从而确保了描述符的易用性。虽然平均局部邻近度该描述符可以很好用于无监督异常检测，但是该描述符计算复杂度较高，可通过与近似算法结合来加快计算速度，精准度有待提高。

基于集成方法和基于距离的数据过滤的新异常值检测算法 $12$ 主要采用迭代方法检测未标记数据中的异常值。其中，使用集成方法对未标记数据进行聚类，通过迭代使用聚类成员资格阈值过滤掉相同数据中的潜在孤立异常点，直到聚类的Dunn指数得分最大化；基于距离的数据过滤，使用来自多数聚类的每个数据点的欧氏距离度量作为过滤因子，基于距离阈值从聚类后数据中删除潜在的离群聚类。该方法可以有效地检测异常，性能更优，但是主要局限性在于算法性能取决于阈值选择，故可以通过其他方法来自动确定阈值。

邻近隔离森林 $13$ 是一种基于邻近度的扩展，只需要一组成对距离即可工作，使其适用于不同类型的数据；基于捕获异常值与其余数据分离的原则来优化隔离；通过异常数据在树中的早期隔离来检测出异常值。该方法适用于任何类型的数据，在异常检测中鲁棒性较好，但是还需优化训练策略以能够捕捉到异常特征的不同方面。

这类方法可以有效解决异常检测召回率低和正常数据和异常数据的高效学习的问题。

3.2基于分类的方法

单目标生成对抗主动学习（SO-GAAL）异常值检测方法 $14$ ，可根据生成器和鉴别器之间的极小极大博弈直接生成信息潜在异常，从而解决因维数不足而导致的信息缺失问题；当其提供足够信息时，应确定训练的停止节点。由于该方法不适用于没有任何先验信息的情况，故将SO-GAAL的网络结构从单个生成器扩展到具有不同目标的多个生成器（MO-GAAL），以防止生成器陷入模式崩溃问题。可以为整个数据集生成合理的参考分布，避免。该方法对不同参数都具有较强的鲁棒性，易于处理各种聚类类型和高不相关可变比，计算复杂度为线性复杂度；但可尝试将集成学习与GAAL的迭代优化或特征选择相结合，仍需进一步研究数据类型的网络结构。

图4 检测过程中基于SO-GAAL的离群点检测算法

针对数据集缺失值问题，Vangipuram提出一种填补技术来填补缺失值和基于特征变换执行分类的分类器 $15$ ；使用基于特征变换的测度来计算特征模式聚类过程中的相似度，使用基于增量聚类的测度来计算分类任务中的相似度。实验结果表明，该方法效果更好；但该方法可使用z空间中提出新的输入和分类措施来扩展，可使用新的特征转换技术来处理归责任务从而处理数据集中常见缺失值。

多层单类分类（MOCCA）新框架 $16$ ，用于在异常检测（AD）任务上训练和测试深度学习（DL）模型。该方法主要明确使用了深层架构的多层结构，每层的特征空间都在训练时优化异常检测，而在测试阶段将从训练层中提取的深度表示相结合以检测异常；在训练阶段，自动编码器只接受重建任务的训练，在每层中最小化输出表示与参考点（无异常训练数据质心）之间的L2距离，结合各训练层提取的深度特征来进行异常检测。该方法的平均性能较好，且具有较强的泛化力。

图5 MOCCA方法的示意图

针对视频异常检测中较高的误报、缺乏场景理解和检测性能差的问题，Thakare $17$ 提出具有融合后策略的多流架构，主要使用异常和正常视频数据来训练深度多实例学习分类器，通过在特征提取中注入时间信息来提高异常检测性能，在训练时并行使用两个时空深度特征提取器，然后使用这些流来训练修改后的基于多实例学习的分类器，再采用模糊聚合来融合异常分数。该模型有助于检测视频中的长时间异常，所提出的端到端多流架构异常检测的准确率更高，性能更优。

图6 端到端多流异常定位与分类体系结构

基于多尺度残差分类器的网络流量异常检测方法（MSRC） $18$ 主要使用滑动窗口将网络流量划分为不同观测尺度的子序列，使用小波变换技术获取多个分解尺度上每个子序列的时频信息，设计堆叠自动编码器（SAE）学习输入数据的分布，利用构建的特征空间计算重构误差向量，学习利用多径残差组重构不同尺度的误差向量，通过轻量级分类器完成流量异常检测。该方法异常检测性能和泛化性较好，可应用于具有异常检测功能的入侵检测系统和入侵防御系统。

该类方法可以有效解决正常数据和异常数据的高效学习、对高维数据和非独立数据的异常检测和复杂异常的检测问题。

3.3基于聚类的方法

基于邻近度和聚类的混合异常检测方法 $19$ 利用真实数据集的高斯分布特性来分离异常，通过有效地提取异常和减少假警报的数量来提高准确性。实验结果表明，该方法在灵敏度、漏检率和检测结果的准确性上较好。该方法可用于空气质量检测。

聚类与离群点去除算法（COR） $20$ 主要根据离群点与聚类之间的关系，将原始特征空间转化为分区空间；给出基于全息熵的目标函数，并通过K-means优化对目标函数进行了部分求解。该方法使用一个辅助的二元矩阵，完全通过K-means 在连接的二元矩阵上解决了联合聚类分析和离群点检测问题。实验结果表明，该方法在聚类有效性和离群值检测上有效性且效率较好。

图7 中国和美国的飞行轨迹：(a)和(c)显示飞行轨迹，(b)和(d)显示COR检测到的异常轨迹

基于最优自编码器网络的重构误差和基于自编码器网络编码层学习表征的DBSCAN噪声 $21$ 是多元地球化学异常的有用指标。其中，基于密度的噪声空间聚类应用程序（DBSCAN）主要针对原始数据和等距对数比转换后的数据进行操作，将与核心样本不同的噪声样本视为异常，从自动编码器网络层中学习到的表示被DBSCAN聚类，以检测代表地球化学异常的噪声样本。衡量二元异常与已知矿床之间关系的约登指数用于最佳阈值选择，以根据导出的连续地球化学异常数据创建最佳矿产潜力图。该方法可以有效进行多元地球化学异常检测。该方法适用范围较小，故还需提高其泛化力。

针对基于3D建筑模型辅助标记的监督GNSS 信号类型分类的定位增强方面，夏言 $22$ 等人构建了一种结合基于聚类的异常检测和监督分类的 GNSS 观测质量识别的替代框架。其中基于层次密度的应用噪声空间聚类（HDBSCAN）算法用于将离线数据集标记为正常和异常观察，而无需借助 3D构建模型，在线系统中的监督分类器学习分类规则以进行实时异常检测。实验结果表明该方法使得离线数据集的单点定位精度有所提高，该方法具有可行性和较好的泛化力，但参数特征有待优化。

图8 GNSS观测异常检测混合学习框架流程图

深度自动编码器紧凑聚类单类支持向量机的无监督异常检测框架（DAECC-OC-SVM） $23$ 旨在结合深度神经网络自动学习表示的优势以提高异常检测性能。该方法利用深度学习的高模式管理来表征和提取特征，使用深度聚类算法改进紧凑表示特征空间映射，将紧凑表示作为单类分类方案的输入，结合DAE的重建能力，可以提高离群值的检测。该方法适用于任何需要进行异常检测的机电系统，且在工业应用中具备可行性且效果较好。

图9 DAECC-OC-SVM框架流程图

基于复合聚类和大数据技术的实时异常检测框架 $24$ ，主要使用了流式滑动窗口局部离群因子核心集聚类算法（SSWLOFCC），引入了实时大数据技术来提高框架的性能，同时也针对准确性、内存消耗和执行时间方面进行评估。该方法具有低能耗高效性，且所提出的解决方案可用于实时准确地跟踪和检测异常情况。

基于深度学习和模糊聚类（Fuzz-ClustNet）的心电信号心律失常检测方法 $25$ 主要是，对心电图（ECG）信号数据进行降噪再分段，对分割后的图像执行数据增强来平衡类别，利用CNN来对增强图像进行特征提取，利用模糊聚类算法来分类信号。该方法可有效用于心律失常检测。

该类方法可有效解决抗噪音异常检测和复杂异常的检测问题。

3.4基于神经网络的方法

基于深度学习的新型机械设备异常检测方法 $26$ 主要有基于堆叠自动编码器（SAE）的多特征序列表示和基于长短期记忆（LSTM）神经网络的异常识别这两个阶段。若历史数据未标记且缺乏异常经验知识，则该方法侧重于通过多个特征序列进行异常检测。经实验结果表明，该方法的效果较好。该方法可用于故障诊断。

图10 基于SAE的多特征序列表示学习过程

针对实时异常检测方面效率不高问题，Sahil Garg等人提出了基于灰狼优化（GWO）和卷积神经网络（CNN）进行网络异常检测的混合数据处理模型 $27$ 。该模型主要使用ImGWO 进行特征选择以获得两个目标之间的最佳权衡和使用ImCNN 进行网络异常分类。其中，对GWO和CNN进行探索、利用，和初始种群生成能力和各自的随机失活层方面的改进，得到Improved-GWO（ImGWO）和 Improved-CNN（ImCNN），来增强所提出模型的能力。实验结果表明，该模型在检测率、误报率和准确率方面的整体提升。该方法的适用性有待加强。

图11 基于ImGWO和ImCNN的异常检测混合模型

针对深度异常检测方法中特征表示学习效率低下和异常评分不理想的问题，Guansong Pang提出一个新的框架及其实例DevNet $28$ ，主要通过神经偏差学习来实现异常分数的端到端学习，利用多个标记的异常和先验概率来强制执行统计上显着的偏差，从而实现异常分数与正常数据对象的异常分数的统计上显着偏差。该方法可以有效地进行异常检测，且可用于无监督学习，但是对于一些类似于只有一两个标记异常可用的特殊情况不适用。

图12 DevNet实例对应的建议框架图

一种随机seq2seq模型TopoMAD $29$ 主要使用系统拓扑信息来组织不同组件的指标，并对连续收集的指标应用滑动窗口以捕获时间依赖性，使用图神经网络提取空间特征，使用长短期记忆网络提取时间特征，使用基于变分自动编码器的模型来确保其稳健性。该模型可以稳健地模拟受污染数据之间的空间和时间依赖性。

图13 TopoMAD的整体结构

针对在万物互联（IoE）中的异常检测，Youcef Djenouri等人提出了一种新的通用深度学习（DL）框架 $30$ 。该架构主要是将数据集分解成簇，同时将同一簇中的相似观察值分组，使用深度学习架构训练生成的集群；且提出了一种新的循环神经网络来训练时间序列数据和遗传与蜂群两种进化计算算法。该方法可以使用于道路交通异常值检测和网络入侵检测。该方法具有高性能计算。

Garson-pruned ELM-RNN算法 $31$ 是一种优化的复制器神经网络算法，主要使用极限学习机（ELM）学习和Garson算法进行了优化。其中，极限学习机是具有单隐藏层的神经网络，Garson算法可以解决隐藏层最佳神经元数量的确定问题。该方法可用于异常检测，且速度较快，准确率较高。

图14 RNN结构示意图

多模态时空图注意力网络（MST-GAT） $32$ 主要采用多模态图注意力网络（M-GAT）和时间卷积网络来捕获多模态时间序列中的时空相关性，同时优化重建和预测模块。且在此基础上，构建了一种基于重建概率和预测值的有效异常解释方法，增加模型的可解释性。该方法可以解决多模态多元时间序列数据异常检测问题。

图15 MST-GAT结构图

这类方法可以有效地解决异常解释、对高维数据和非独立数据的异常检测和复杂异常的检测问题。

4.总结与展望

5G时代下的网络安全尤为重要，且其中基于深度学习的异常检测也是研究者关注的热点问题。本文对各种深度异常检测方法进行分类，并对各方法进行了简要阐述。现阶段对于异常检测存在的未来有以下几种可能的方向：减化数据量需求，减少数据不平衡分布影响，优化神经网络选择，优化参数的鲁棒性，优化参数值的初始化选择，增强模型的可解释性以及泛化力。

参考文献

$1$ Mehbodniya, Abolfazl, et al. "Financial fraud detection in healthcare using machine learning and deep learning techniques." Security and Communication Networks 2021 (2021): 1-8.

$2$ Zhang, Jianpeng, et al. "Viral pneumonia screening on chest X-rays using confidence-aware anomaly detection." IEEE transactions on medical imaging 40.3 (2020): 879-890.

$3$ Alrashdi, Ibrahim, et al. "Ad-iot: Anomaly detection of iot cyberattacks in smart city using machine learning." 2019 IEEE 9th Annual Computing and Communication Workshop and Conference (CCWC). IEEE, 2019.

$4$ Gómez, Ángel Luis Perales, et al. "SUSAN: A Deep Learning based anomaly detection framework for sustainable industry." Sustainable Computing: Informatics and Systems (2023): 100842.

$5$ Liang, Wei, et al. "Data fusion approach for collaborative anomaly intrusion detection in blockchain-based systems." IEEE Internet of Things Journal 9.16 (2021): 14741-14751.

$6$ Pang, Guansong, et al. "Deep learning for anomaly detection: A review." ACM computing surveys (CSUR) 54.2 (2021): 1-38.

$7$ Jiang, Feng, et al. "Outlier detection based on approximation accuracy entropy." International Journal of Machine Learning and Cybernetics 10 (2019): 2483-2499.

$8$ Wang, Siqi, et al. "Effective end-to-end unsupervised outlier detection via inlier priority of discriminative network." Advances in neural information processing systems 32 (2019).

$9$ Wang, Hu, et al. "Unsupervised representation learning by predicting random distances." arXiv preprint arXiv:1912.12186 (2019).

$10$ Pan, Lujia, et al. "Proactive microwave link anomaly detection in cellular data networks." Computer Networks 167 (2020): 106969.

$11$ Lenz, Oliver Urs, Daniel Peralta, and Chris Cornelis. "Average Localised Proximity: A new data descriptor with good default one-class classification performance." Pattern Recognition 118 (2021): 107991.

$12$ Chakraborty, Bodhan, et al. "An iterative approach to unsupervised outlier detection using ensemble method and distance-based data filtering." Complex & Intelligent Systems 8.4 (2022): 3215-3230.

$13$ Mensi, Antonella, David MJ Tax, and Manuele Bicego. "Detecting Outliers from Pairwise Proximities: Proximity Isolation Forests." Pattern Recognition (2023): 109334.

$14$ Liu, Yezheng, et al. "Generative adversarial active learning for unsupervised outlier detection." IEEE Transactions on Knowledge and Data Engineering 32.8 (2019): 1517-1528.

$15$ Vangipuram, Radhakrishna, et al. "A machine learning approach for imputation and anomaly detection in IoT environment." Expert Systems 37.5 (2020): e12556.

$16$ Massoli, Fabio Valerio, et al. "MOCCA: Multilayer one-class classification for anomaly detection." IEEE Transactions on Neural Networks and Learning Systems 33.6 (2021): 2313-2323.

$17$ Thakare, Kamalakar Vijay, et al. "A multi-stream deep neural network with late fuzzy fusion for real-world anomaly detection." Expert Systems with Applications 201 (2022): 117030.

$18$ Duan, Xueyuan, Yu Fu, and Kun Wang. "Network traffic anomaly detection method based on multi-scale residual classifier." Computer Communications 198 (2023): 206-216.

$19$ Aggarwal, Apeksha, and Durga Toshniwal. "Detection of anomalous nitrogen dioxide (NO2) concentration in urban air of India using proximity and clustering methods." Journal of the Air & Waste Management Association 69.7 (2019): 805-822.

$20$ Liu, Hongfu, et al. "Clustering with outlier removal." IEEE transactions on knowledge and data engineering 33.6 (2019): 2369-2379.

$21$ Zhang, Shuai, et al. "Integration of auto-encoder network with density-based spatial clustering for geochemical anomaly detection for mineral exploration." Computers & Geosciences 130 (2019): 43-56.

$22$ Xia, Yan, et al. "Anomaly detection for urban vehicle GNSS observation with a hybrid machine learning system." Remote Sensing 12.6 (2020): 971.

$23$ Arellano-Espitia, Francisco, et al. "Deep-Compact-Clustering based anomaly detection applied to electromechanical industrial systems." Sensors 21.17 (2021): 5830.

$24$ Ariyaluran Habeeb, Riyaz Ahamed, et al. "Clustering‐based real‐time anomaly detection---A breakthrough in big data technologies." Transactions on Emerging Telecommunications Technologies 33.8 (2022): e3647.

$25$ Kumar, Sanjay, et al. "Fuzz-ClustNet: Coupled fuzzy clustering and deep neural networks for Arrhythmia detection from ECG signals." Computers in Biology and Medicine (2023): 106511.

$26$ Li, Zhe, et al. "A deep learning approach for anomaly detection based on SAE and LSTM in mechanical equipment." The International Journal of Advanced Manufacturing Technology 103 (2019): 499-510.

$27$ Garg, Sahil, et al. "A hybrid deep learning-based model for anomaly detection in cloud datacenter networks." IEEE Transactions on Network and Service Management 16.3 (2019): 924-935.

$28$ Pang, Guansong, Chunhua Shen, and Anton van den Hengel. "Deep anomaly detection with deviation networks." Proceedings of the 25th ACM SIGKDD international conference on knowledge discovery & data mining . 2019.

$29$ He, Zilong, et al. "A spatiotemporal deep learning approach for unsupervised anomaly detection in cloud systems." IEEE Transactions on Neural Networks and Learning Systems (2020).

$30$ Djenouri, Youcef, et al. "Emergent deep learning for anomaly detection in internet of everything." IEEE Internet of Things Journal (2021).

$31$ Hashmi, Adeel Shiraz, and Tanvir Ahmad. "GP-ELM-RNN: Garson-pruned extreme learning machine based replicator neural network for anomaly detection." Journal of King Saud University-Computer and Information Sciences 34.5 (2022): 1768-1774.

$32$ Ding, Chaoyue, Shiliang Sun, and Jing Zhao. "MST-GAT: A multimodal spatial--temporal graph attention network for time series anomaly detection." Information Fusion 89 (2023): 527-536.