时序论文40 | 将不规则采样时间序列转换为图像，利用预训练视觉Transformer进行分类

论文标题：Time Series as Images: Vision Transformer for Irregularly Sampled Time Series

论文链接：https://arxiv.org/abs/2303.12799

（后台回复"交流"加入讨论群，回复"资源"获取2024年度论文讲解合集）

研究背景

这篇文章要解决的问题是如何有效地建模不规则采样时间序列的复杂动态和显著稀疏性。但是不规则时序数据一直以来都比较难建模，因为不规则采样时间序列具有：间隔不一致、数据稀疏性、模式动态变化、跨变量对齐难等问题，这些复杂性和稀疏性使得不规则采样时间序列的分析比常规时间序列更具挑战性。

该问题的研究相关工作有：专门处理不规则采样时间序列的模型，如GRU-D、SeFT、mTAND等；基于transformer的数值时间序列建模方法；将时间序列数据转换为不同类型图像的方法，如Gramian场、递归图等。

研究方法

这篇论文提出了一种名为ViTST（Vision Time Series Transformer）的新方法，用于解决不规则采样时间序列分类问题。具体来说，将不规则采样时间序列转换为线形图图像，然后利用预训练视觉transformer进行时间序列分类，把时序数据转换为图像进行处理不是本文原创，但算是一个新视角。最大的好处是比较容易讲故事，其次才是"大大简化了专门算法设计，而且还有潜力成为时间序列建模的通用框架"。

1、时间序列到图像的转换：首先，将多变量时间序列转换为线图图像。每行表示一个变量的观测值，按时间顺序连接，缺失值进行插值。然后将多个线图排列成一张标准RGB图像。将多个线图组织成单个图像，采用网格布局。图像的尺寸由网格大小和每个网格单元的尺寸决定。

2、使用预训练的视觉变换器进行分类：其次，利用预训练的视觉变换器（如Swin Transformer）作为图像分类器，对转换后的图像进行分类。视觉变换器能够捕捉局部和全局的上下文信息，适用于时间序列数据的建模。

具体的数学公式如下：

其中第一行和第二行分别表示(S)W-MSA模块和MLP模块在第l块的输出特征；LN表示层归一化。

实验评估

数据集实验使用了三个广泛使用的医疗和人活动数据集：P19、P12和PAM。P19包含38,803个病人的34个传感器变量，P12包含11,988个病人的36个传感器变量，PAM包含5,333个样本的17个传感器变量。图像创建将时间序列线图排列成单个图像，采用默认的6x6网格布局。每个网格单元的大小固定为64x64像素。

与现有方法的比较：在P19和P12数据集上，ViTST分别比现有方法提高了2.2%和0.7%的AUROC，以及1.3%和2.9%的AUPRC。在PAM数据集上，ViTST的Accuracy、Precision、Recall和F1 score分别提高了7.3%、6.3%、6.2%和6.7%。

在PAM数据集上，ViTST在留固定传感器出和留随机传感器出设置下的表现均优于现有方法，特别是在一半变量被掩码的情况下，ViTST的F1 score提高了42.8%。

不同视觉模型的比较：预训练的Swin Transformer和ViT在P19、P12和PAM数据集上的表现相当，均优于现有的最先进方法Raindrop。而预训练的CNN模型ResNet则表现较差。

总结和评价

这篇论文提出了一种简单而有效的方法，将不规则采样时间序列转换为线图图像，并利用预训练的视觉变换器进行分类。实验结果表明，该方法在处理不规则采样时间序列方面表现优异，并且在常规时间序列数据上也取得了良好的效果。该方法展示了将计算机视觉技术应用于时间序列建模的潜力，并为未来的研究提供了新的方向。

一些疑问和值得探索的问题：是否存在其他更可控和准确的绘图方法或不同的图像表示方式？是否有更好的策略发挥预训练的视觉大模型在时间序列的作用？

大家可以关注我【科学最top】，第一时间follow时序高水平论文解读！！！，后台回复"交流"加入讨论群，回复"资源"获取2024年度论文讲解合集