[算法]时间序列(介绍)

1/什么是时间序列数据？

时间序列数据 是按照固定时间间隔或连续时间点 ，按时间顺序排列的一系列观测值或数据点。其核心特征是 "时间顺序" 本身就携带了至关重要的信息，数据点之间不是独立同分布的，而是存在相关性、趋势性或周期性。

简单来说，如果你打乱数据点的顺序，那么, 其意义就会完全丧失或严重受损，那么这很可能就是时间序列数据。

在数据结构上，它通常表现为一个带有时间戳的二维表格或一个有序的列表/数组。

时间戳	观测值 1	观测值 2	...
t₁	x₁	y₁	...
t₂	x₂	y₂	...
t₃	x₃	y₃	...
...	...	...	...

最左边一列（或索引） 是时间索引 ，这是时间序列数据的"灵魂"。它可以是：
- 等间隔的：2024-01-01 00:00, 2024-01-01 01:00, 2024-01-01 02:00...
- 不等间隔的：事件发生的时间戳，如用户点击记录。
每一行代表在某个特定时间点的"快照"。
每一列 代表一个随时间变化的特征或变量。可以是单变量（只有一列观测值），也可以是多变量（有多列观测值）。

数据示例 ：

数据示例 ：

时间戳	设备ID	振动幅度	温度(°C)	电流(A)	压力(MPa)
2024-05-10 10:00:00	Motor_A	2.1	65	10.5	0.85
2024-05-10 10:00:01	Motor_A	2.2	65.1	10.6	0.86
2024-05-10 10:00:02	Motor_A	5.8	70.3	15.2	0.92
...	...	...	...	...	...

数据示例 ：

日期-小时	独立访客数	页面浏览量	服务器负载
2024-05-09 20:00	10432	89210	0.65
2024-05-09 21:00	12054	100345	0.72
2024-05-09 22:00	15321	134567	0.85
2024-05-10 09:00	8567	65432	0.45
...	...	...	...

处理时间序列数据的模型需要能够捕捉其时间依赖性：

传统机器学习方法：需要手动构造特征，如滞后特征（前1小时的值、前1天的值）、滑动窗口统计量（过去7天的均值、方差）、季节指标等，然后使用回归、随机森林等模型。
深度学习方法 ：能自动学习时间模式，是当前的主流：
- 循环神经网络（RNN）及其变体（LSTM, GRU）：专为序列数据设计，具有"记忆"功能。
- 时间卷积网络（TCN）：使用因果卷积来捕获长期依赖。
- Transformer模型：通过自注意力机制，能并行处理并捕获长距离依赖，现在也被广泛应用于时间序列预测（如Informer、Autoformer等模型）。

时间序列数据 就是带有时间戳、且顺序至关重要的数据。它广泛存在于我们生活的方方面面，从经济金融到工业制造，从日常天气到人体健康。

识别和理解你的数据是否具有时间序列特性，是选择正确分析方法和机器学习模型的第一步。