导读:
在工业应用中,时间序列的无监督异常检测至关重要,因为它能显著减少人工干预的需求。时间序列数据通常具有非平稳性、高维、异常稀缺等特点,使得对其进行异常检测具有挑战性。本文提出了一种基于注意力机制、图嵌入技术和VAE相结合的无监督多维时间序列异常检测模型GE-GRU-VAE。首先,在GE-GRU-VAE编码器中采用MLP和多头注意力结构进行局部特征提取,获得输入数据内在特征的分布参数。其次,采用重参数化得到其低维图嵌入特征。然后,在GE-GRU-VAE解码器中采用基于图嵌入与GRU的GE-GRU模块进行时间序列重构,通过无监督学习得到最优模型。最后,根据双阈值异常判定方法判断序列是否异常。在两个公共数据集SWaT和WADI上验证了所提模型的有效性。实验结果表明,GE-GRU-VAE不仅具有较低的时间与空间复杂度,而且具有良好的异常检测精度。
作者信息:
赵银祥, 冯慧芳:西北师范大学数学与统计学院,甘肃 兰州
论文详情
多维时间序列异常检测模型GE-GRU-VAE
本文提出的异常检测模型框架如图1所示。首先,多维时间序列通过滑动窗口的方式输入模型,经过GE-GRU-VAE编码器中MLP和多头注意力结构进行局部特征提取,获得输入数据内在特征的分布参数。其次,重参数化Gumbel-Softmax得到其低维图嵌入。然后,将得到的图嵌入和原始序列输入到解码器中改进的GRU,并通过一个全连接层进行重构,得到与原始数据相同的形式重构结果。通过损失函数优化模型参数,最终得到最优模型。最后,基于最优模型,将测试数据集输入到该模型,得到原始序列嵌入图结构,计算其异常得分,并根据双阈值异常判定方法判断序列是否异常。

异常检测
多维时间序列之间存在一定耦合关系,这种关系可用于图结构刻画。当时间序列没有异常时,其间的耦合关系保持稳定状态;当序列异常时,系统中节点间的耦合关系发生变化,图结构特征也发生明显变化。故本文通过多维时间序列嵌入图的连接强度的变化判断时间序列是否发生异常。
通过训练集训练得到GE-GRU-VAE模型,再将验证集输入该模型得到输入序列的嵌入图,本文采用图的度的变化来衡量嵌入图连接强度的变化。因此,根据图的度计算异常得分,若异常得分大于阈值,则认定该序列为异常。异常检测的步骤参见原文链接。
实验结果及分析
本文采用两个真实数据集验证模型有效性,数据集SWaT (Secure Water Treatment) 和WADI (Water Distribution Testbed) 由新加坡科技设计大学的iTrust机构采集并开源。数据集的基本特征如表1所示。两个数据集的训练集只包含正常数据,测试数据集则包含正常和异常两种状态的数据。本文将训练集分为训练数据(80%)和验证数据(20%),其中训练数据用于模型训练,验证数据用于模型选择,测试数据集用于检验模型有效性。


由表2可知,在SWaT和WADI两个数据集上,本文提出的模型GE-GRU-VAE的复杂度的各个指标值均明显低于GRELEN模型的值,尤其是刻画时间复杂度的指标time和Avgtime/epoch下降最明显。该结果表明模型GE-GRU-VAE在时间和空间复杂度上均优于模型GRELEN。

由表3可知,首先,在SWaT和WADI两个数据集上,基线模型包括LSTM-VAE、MAD-GAN、Omni Anomaly和Topo GDN的三个性能指标的值都比较小,说明这些模型性能较差。其次,在SWaT数据集上,与其他基线模型相比较,GE-GRU-VAE的F1值最高,其精确率Precision和召回率Recall排在次优位置,精确率和召回率最高的模型分别是GDN和GRELEN。在WADI数据集上,GRELEN的三个性能最大,说明该模型在该数据集上性能最优,GE-GRU-VAE在该数据集上的三个性能指标都是次优。虽然在WADI数据集上,本文提出的GE-GRU-VAE是次优模型,但是与最优模型GRELEN的较高时间和空间复杂度相比较,GE-GRU-VAE仍属于性能优良的异常检测模型。最后,结合模型在两个数据集检测精度的性能指标值和复杂度指标值,可知本文提出的模型GE-GRU-VAE对多维时间序列异常检测具有一定优势。


结论
在工业应用中,时间序列的无监督异常检测至关重要,因为它能显著减少人工干预的需求。但多变量时间序列因其特征维度和时间维度而构成复杂挑战。本文提出了名为GE-GRU-VAE的多维时间序列异常检测模型,该模型结合注意力机制、图嵌入技术和VAE的无监督深度学习模型。在编码器中采用MLP和多头注意力结构进行局部特征提取,在解码器中采用图嵌入GRU进行时间序列重构,通过训练集优化训练得到最优模型,并根据双阈值异常判定方法判断序列是否异常。在两个真实数据集上的实验表明,GE-GRU-VAE具有较低的时间与空间复杂度,且具有良好的异常检测精度。未来我们不仅需要在更多数据集上检验模型的有效性,而且要改进模型,在降低复杂度的基础上,提高多维时间序列异常检测的精度。
基金项目:
国家自然科学基金(72461030)