使用 tsfresh 和 AutoML 进行时间序列特征工程

时间序列无处不在，心电图上的心跳、股票价格、家庭智能电表读数，甚至句子中词语------这些都是时间序列。它们的特殊之处在于顺序：过去影响未来，相邻的数据点往往高度相关。

现代预测和分类模型很少直接处理原始时间序列值。它们依赖的是特征：用来描述序列形状、变异性、趋势和模式的摘要信息。好的特征能把困难的预测问题转化为更简单的回归或分类任务。

当前有两大趋势，一是 AutoML（自动机器学习），像 auto-sklearn 这样的系统能自动搜索模型族、超参数和预处理步骤。二是自动化时间序列特征提取，像 tsfresh 这样的库可以从每个序列生成数百个特征，涵盖统计量、自相关、频谱内容、熵等各个维度。

最近的研究表明，将 AutoML 与丰富的时间序列特征结合，在许多预测任务上能超越复杂的深度神经网络。更有意思的是这种方法甚至可以通过"语言时间序列"来提升文本分类的性能。

本文将介绍多步时间序列预测的构建方式、auto-sklearn 如何扩展用于时间序列、tsfresh 的工作原理和使用方法，以及两个案例研究：数值预测和文本作为时间序列。文末还有一些可以直接应用到项目中的实用技巧。

多步预测：不仅预测下一步，还要预测接下来的 k 步

多步超前预测的目标不是预测下一个值，而是预测一整个序列的未来值：

x i + 1 , x i + 2 , ... , x i + k x_{i+1}, x_{i+2}, \dots, x_{i+k} xi+1,xi+2,...,xi+k

比如预测未来 24 小时的电力负荷、未来 10 天的原油价格，或者提前几个时间步预测洪水水位。

两种主要策略被广泛使用。

递归策略

首先训练一个模型只预测下一个时间步：

x ^ i + 1 = f ( x i − w + 1 , ... , x i ) \hat{x}{i+1} = f(x{i-w+1}, \dots, x_i) x^i+1=f(xi−w+1,...,xi)

然后把这个预测值作为输入反馈进去，得到下一个预测：
x ^ i + 2 = f ( x i − w + 2 , ... , x i , x ^ i + 1 ) \hat{x}{i+2} = f(x{i-w+2}, \dots, x_i, \hat{x}_{i+1}) x^i+2=f(xi−w+2,...,xi,x^i+1)

如此重复直到达到 x_{i+k}。

这种方法只需训练一个模型，计算成本较低。但问题在于早期步骤的任何误差都会在后续预测中传播和放大，这就是我们常说的自回归预测。

直接多输出策略

另一种思路是训练一个模型一次预测所有未来步骤：