时序数据分析：短时序分类问题

莫叫石榴姐2024-11-02 15:42

在短序列时序分类中，一个特殊情况就是每个批次的时序长度可能不同（例如化工过程不同生产周期长度略微不同）。通常预处理策略包括（如图1所示）：

1)在原始数据强行截取，通常采用掐头去尾的启发式策略。

2)通过特征提取，将其转化为等长的特征向量。

3)在聚类中，采用允许不同长度的时序相似度评价方法（例如DTW）进行聚类，后面利用聚类信息进行分析。
图1 单个时序变量聚类后形成分类特征量

短时序分析的另外一个问题就是降维，有变量间、记录间降维两种方式。

1)变量间可以做PCA（主成分分析）（如图2所示）

图2 变量间的PCA形成分类特征向量

2)记录间可以做聚类（提取典型变化）（如图3所示）
图3 记录间聚类形成分类特征量

短时序（例如示功图、一次机加工过程）分类问题，通常的思路是采用时序再表征、时序聚类或特征提取的方式，将原始的时序转化为特征向量，然后采用通用的分类算法进行建模，整体路线如图4所示。针对短时序，形状也可以被用来作为决策树算法的判据。例如，Shapelet能够表征某个类别的相位无关(Phase-Independent)的子序列，也就是说Shapelet出现在序列的什么位置不重要（重要的是有没有出现）。在具体实现中，通常采用Shapelet Transformation生成特征向量，并将其作为经典的分类算法的输入。根据信息增益对给定的备选Shapelet进行排序。对于给定的k个Shapelet，将它们与每个样本的距离作为特征向量。
图4 时序特征提取过程

这样就可以用经典分析算法对特征向量进行后续处理，如图5所示。
图5 短序列聚类的过程示意图