DAY 58 经典时序预测模型2

知识点回顾：

时序建模的流程
时序任务经典单变量数据集
ARIMA（p，d，q）模型实战
SARIMA摘要图的理解
处理不平稳的2种差分
1. n阶差分---处理趋势
2. 季节性差分---处理季节性

昨天我们掌握了AR, MA, 和 ARMA 模型，它们是处理平稳时间序列的利器。但现实世界的数据，比如股票价格、公司销售额，往往带有明显的趋势性或季节性，它们是不平稳的。今天，我们就来学习ARIMA模型，它正是为了解决这个问题而生的。

他进一步引入差分来解决不平稳问题

差分是使数据平稳化的关键步骤。

一阶差分: 就是序列中每个点减去它前一个点的值。

diff(t) = value(t) - value(t-1)

这通常可以消除数据中的线性趋势。

二阶差分: 对一阶差分后的结果再做一次差分。

diff2(t) = diff(t) - diff(t-1)

这可以消除数据中的曲线趋势（比如抛物线趋势）。

ARIMA建模的完整流程

建立一个ARIMA模型，通常遵循以下步骤：

数据可视化：观察原始时间序列图，判断是否存在趋势或季节性。
平稳性检验：
- 对原始序列进行ADF检验。
- 如果p值 > 0.05，说明序列非平稳，需要进行差分。
确定差分次数 d:
- 进行一阶差分，然后再次进行ADF检验。
- 如果平稳了，则 d=1。否则，继续差分，直到平稳。
确定 p 和 q:
- 对差分后的平稳序列绘制ACF和PACF图。
- 根据昨天学习的规则（PACF定p，ACF定q）来选择p和q的值。
建立并训练ARIMA(p, d, q)模型。
模型评估与诊断：查看模型的摘要信息，检查残差是否为白噪声。
进行预测

一、时序任务经典数据集

就像机器学习有鸢尾花、手写数字、波士顿房价这些"标准"数据集一样，时间序列分析领域也有一些"名人堂"成员。

这些经典数据集之所以经典，是因为它们各自清晰地展示了时间序列中一种或多种核心特征（如趋势、季节性、周期性等），非常适合用来教学和检验模型。

下面介绍几个最著名、最常用的单变量时间序列经典数据集，并附上获取它们的代码。

1.1 国际航空乘客数量 (Airline Passengers)

数据描述: 1949年到1960年每月国际航空公司的总乘客数量。
强趋势性: 随着时间推移，乘客数量有非常明显的线性增长趋势。
强季节性: 每年都有一个固定的模式，夏季（6-8月）是高峰，冬季是低谷。
变化的方差: 越到后期，季节性波动的幅度越大，这是一种异方差性。

python 复制代码

import pandas as pd
url = 'https://raw.githubusercontent.com/jbrownlee/Datasets/master/airline-passengers.csv'
df_air = pd.read_csv(url, header=0, index_col=0, parse_dates=True)
df_air.head()


# 这是一种直接使用 URL 在线读取数据集的方式，代码通过pd.read_csv(url)直接从网络 URL 读取数据，Pandas 会自动处理网络请求并加载数据到内存中，属于 "在线读取" 方式。

df_air.plot()

# <matplotlib.axes._subplots.AxesSubplot at 0x29eb6ea3e80>

| | Passengers |
| Month | |
| 1949-01-01 | 112 |
| 1949-02-01 | 118 |
| 1949-03-01 | 132 |
| 1949-04-01 | 129 |

1949-05-01	121

这里没有导入matplotlib仍然可以画图，是因为当调用df.plot()时，Pandas 会隐式导入 Matplotlib（如果尚未导入），并使用其绘图接口生成图表。对于简单的可视化需求，无需显式导入 Matplotlib，减少代码量。这里省略了plt.title('xxx')和plt.show()等

1.2 太阳黑子数量 (Sunspots)

数据描述: 每年观测到的太阳黑子数量。
无明显趋势: 长期来看，数据没有持续的上升或下降趋势。
强周期性 (Cyclical): 数据呈现非常明显的周期性波动，大约每11年一个周期。注意，这与"季节性"不同，季节性周期是固定的（如12个月），而这里的周期长度是近似的。
相对平稳: 经过检验，数据通常被认为是平稳或近似平稳的。

python 复制代码

from statsmodels.datasets import sunspots
df_sun = sunspots.load_pandas().data['SUNACTIVITY']
df_sun.head()

#  0     5.0
#  1    11.0
#  2    16.0
#  3    23.0
#  4    36.0
#  Name: SUNACTIVITY, dtype: float64

df_sun.plot()

# <matplotlib.axes._subplots.AxesSubplot at 0x29eb29bde80>

非常适合用来理解ARMA模型。由于数据本身比较平稳，不需要差分，可以专注于用ACF和PACF图来确定 p 和 q 的值。

1.3 加州每日女性出生数量 (Daily Female Births)

数据描述: 1959年，美国加州每一天的女性新生儿数量。
无趋势、无季节性: 数据看起来像随机波动，没有明显的趋势或可预测的季节模式。
平稳性: ADF检验通常会显示该序列是平稳的。

python 复制代码

import pandas as pd
url = 'https://raw.githubusercontent.com/jbrownlee/Datasets/master/daily-total-female-births.csv'
df_births = pd.read_csv(url, header=0, index_col=0, parse_dates=True)
# df_births.plot()
df_births.plot()

# <matplotlib.axes._subplots.AxesSubplot at 0x29eb6fede80>

二、时间序列任务实战

进阶: 使用太阳黑子数据，让学员练习用ACF/PACF为ARMA模型定阶。

核心: 用国际航空乘客数据，系统地讲解从非平稳到平稳（差分），再到建立ARIMA和SARIMA的全过程。

2.1 加州每日女性预测

python 复制代码

# 导入必要的库
import pandas as pd
import matplotlib.pyplot as plt
from statsmodels.tsa.stattools import adfuller
from statsmodels.graphics.tsaplots import plot_acf, plot_pacf
from statsmodels.tsa.arima.model import ARIMA

# 设置matplotlib以正确显示中文
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False

# 加载数据
url = 'https://raw.githubusercontent.com/jbrownlee/Datasets/master/daily-total-female-births.csv'
df = pd.read_csv(url, header=0, index_col=0, parse_dates=True)
df.columns = ['Births']
ts_data = df['Births']

print("--- 原始数据预览 ---")
print(ts_data.head())

# 绘制时序图
plt.figure(figsize=(14, 7))
plt.plot(ts_data)
plt.title('1959年加州每日女性出生数量')
plt.xlabel('日期')
plt.ylabel('出生数量')
plt.show()


#--- 原始数据预览 ---
#  Date
#  1959-01-01    35
#  1959-01-02    32
#  1959-01-03    30
#  1959-01-04    31
#  1959-01-05    44
#  Name: Births, dtype: int64

从图上看，数据点在一个稳定的水平线（大约40）上下随机波动。没有明显的上升或下降趋势，也没有看到以周或月为单位的固定模式。这给我们一个初步印象：这个序列很可能是平稳的。

直觉需要被验证。我们使用ADF检验来科学地判断其平稳性。

python 复制代码

def adf_test(timeseries):
    print('--- ADF检验结果 ---')
    # H0: 序列非平稳; H1: 序列平稳
    result = adfuller(timeseries)
    print(f'ADF Statistic: {result[0]}')
    print(f'p-value: {result[1]}') # 重点关注这个值
    if result[1] <= 0.05:
        print("结论: 成功拒绝原假设，序列是平稳的。")
    else:
        print("结论: 未能拒绝原假设，序列是非平稳的。")

adf_test(ts_data)


#  --- ADF检验结果 ---
#  ADF Statistic: -4.808291253559765
#  p-value: 5.2434129901498554e-05
#  结论: 成功拒绝原假设，序列是平稳的。

既然数据是平稳的，我们就不需要对它进行差分来"铲平"它。这意味着：差分次数 d = 0

我们现在只需要确定 p 和 q。模型将是 ARIMA(p, 0, q)，这其实就是我们昨天学的 ARMA(p, q) 模型。

python 复制代码

# 因为数据是平稳的，我们直接对原始数据绘制ACF和PACF
fig, (ax1, ax2) = plt.subplots(2, 1, figsize=(12, 8))

plot_acf(ts_data, ax=ax1, lags=40)
ax1.set_title('自相关函数 (ACF)')

plot_pacf(ts_data, ax=ax2, lags=40)
ax2.set_title('偏自相关函数 (PACF)')

plt.tight_layout()
plt.show()

PACF图: 在滞后2阶之后，几乎所有的相关性都落入了蓝色置信区间内，我们可以认为它在滞后2阶后截尾。这强烈暗示 p=2。
ACF图: 呈现出拖尾的模式（缓慢下降）。

所以，我们的候选模型是 ARIMA(2, 0, 0)。

python 复制代码

import warnings
warnings.filterwarnings("ignore")
# 建立ARIMA(2, 0, 0)模型
model = ARIMA(ts_data, order=(2, 0, 0))
arima_result = model.fit()

# 打印模型摘要
print(arima_result.summary())

# 让我们预测未来30天
forecast_steps = 30
forecast = arima_result.get_forecast(steps=forecast_steps)
pred_mean = forecast.predicted_mean
conf_int = forecast.conf_int()

# 绘制结果
plt.figure(figsize=(14, 7))
plt.plot(ts_data, label='原始数据')
# 绘制模型在历史数据上的拟合值
plt.plot(arima_result.fittedvalues, color='orange', label='模型拟合值')
# 绘制未来预测值
plt.plot(pred_mean, color='red', label='未来预测值')
# 绘制置信区间
plt.fill_between(conf_int.index,
                 conf_int.iloc[:, 0],
                 conf_int.iloc[:, 1], color='pink', alpha=0.5, label='95%置信区间')
plt.title('ARIMA(2,0,0)模型拟合与预测')
plt.legend()
plt.show()

python 复制代码

                               SARIMAX Results                                
==============================================================================
Dep. Variable:                 Births   No. Observations:                  365
Model:                 ARIMA(2, 0, 0)   Log Likelihood               -1234.182
Date:                Sun, 29 Jun 2025   AIC                           2476.364
Time:                        16:08:32   BIC                           2491.963
Sample:                    01-01-1959   HQIC                          2482.563
                         - 12-31-1959                                         
Covariance Type:                  opg                                         
==============================================================================
                 coef    std err          z      P>|z|      [0.025      0.975]
------------------------------------------------------------------------------
const         41.9816      0.568     73.885      0.000      40.868      43.095
ar.L1          0.1939      0.055      3.544      0.000       0.087       0.301
ar.L2          0.1139      0.055      2.070      0.038       0.006       0.222
sigma2        50.6301      3.527     14.354      0.000      43.717      57.544
===================================================================================
Ljung-Box (L1) (Q):                   0.02   Jarque-Bera (JB):                18.89
Prob(Q):                              0.89   Prob(JB):                         0.00
Heteroskedasticity (H):               0.96   Skew:                             0.48
Prob(H) (two-sided):                  0.83   Kurtosis:                         3.57
===================================================================================

从视觉上看，这个模型的拟合效果确实很差。橙色的"模型拟合值"线非常平滑，完全没有捕捉到蓝色"原始数据"那些剧烈的峰值和谷值。

那么，为什么一个在统计上"通过检验"的模型，看起来却这么"糟糕"呢？从视觉上看，这个模型的拟合效果确实很差。橙色的"模型拟合值"线非常平滑，完全没有捕捉到蓝色"原始数据"那些剧烈的峰值和谷值。

那么，为什么一个在统计上"通过检验"的模型，看起来却这么"糟糕"呢？

"每日女性出生数量"这个数据集，其内在的随机性（我们称之为"噪音"）非常高。今天比昨天多生了10个孩子，明天又比今天少生了8个，这其中大部分是无法预测的随机事件。

然而，在这个巨大的随机噪音之下，隐藏着一个非常微弱的模式。我们的ARIMA(2,0,0)模型和统计检验发现：今天的出生人数，与昨天（ar.L1）和前天（ar.L2）的出生人数，存在一点点微弱但统计上显著的自相关关系。ARIMA模型就像一个筛子，它的任务是从混杂着沙子（噪音）和金子（模式）的混合物中，把"金子"给筛出来。

橙色线（模型拟合值）：这就是模型筛出来的"金子"。它是基于前两天数据计算出的期望值或预测值。因为模式本身是平滑的（只是一个微弱的自相关），所以这条线必然是平滑的。它代表了数据中可预测的部分。
蓝色线与橙色线的差距（残差）：这就是被模型筛掉的"沙子"，也就是噪音。这是模型认为不可预测的随机部分。

想象一下，如果我们强行建立一个能完美追踪每一个蓝色数据点的模型。这条橙色线会和蓝色线完全重合。这看起来是不是"拟合得很好"？但这恰恰是"过拟合"（Overfitting）！

这个模型把所有的"噪音"都当成了"模式"来学习。当让它去预测未来时，它会因为学了太多随机噪音而做出非常离谱和不稳定的预测。

一个好的模型，懂"断舍离"------它只学习真正的模式，并勇敢地承认："剩下的部分，我无法预测，因为它们是随机的。"这就是我们在模型摘要中做的Ljung-Box检验。Prob(Q) = 0.89，这个值远大于0.05。它的意思是："我们非常有把握地认为，这些残差是纯粹的随机噪音，里面已经没有任何模式可供提取了。"

在时间序列分析中，我们的目标不是创造一个能"复制"历史的"复印机"（过拟合），而是要打造一个能"理解"历史规律的"侦探"（好模型）。这个"侦探"能区分出哪些是线索（模式），哪些是干扰项（噪音）。因此，一个好的模型的残差，必须像白噪音一样"无聊"和"不可预测"。这正是我们在这个例子中看到的。

现在我们来解读下这个输出的表

先看表头，SARIMAX Results

在 statsmodels 库的现代版本中，ARIMA、SARIMA 和 SARIMAX 的后端实现被统一到了一个强大的 SARIMAX 类中。你可以把它理解成一个"全能型"模型引擎。所以结果显示 SARIMAX Results

SARIMAX 是 Seasonal AutoRegressive Integrated Moving Average with eXogenous regressors 的缩写。它是最通用的模型，包含了：

ARIMA(p,d,q): 非季节性部分。
Seasonal(P,D,Q,m): 季节性部分。
eXogenous(X): 外部变量（例如，用天气温度来预测冰淇淋销量）。

简单来说：ARIMA 是 SARIMAX 的一个特例。

然后看第二部分

这是模型的核心参数部分，告诉我们模型具体学到了什么。

coef (系数): 这是模型计算出的每个参数的值。
- const: 常数项/截距。可以理解为序列的基准水平或均值，这里是 41.98，和我们之前图上看到的均值差不多。
- ar.L1: 滞后1阶的自回归项 (AR) 系数 φ₁。值为 0.1939。
- ar.L2: 滞后2阶的自回归项 (AR) 系数 φ₂。值为 0.1139。
- sigma2: 模型残差的方差。值越小说明模型的拟合误差越小。
P>|z| (p值): 这是最重要的列！它检验的是"该系数是否显著不为0"。判断标准: 如果 p值 < 0.05，我们就可以认为这个系数是统计上显著的，它对模型是有贡献的。
- const 的 p值为 0.000，非常显著。
- ar.L1 的 p值为 0.000，非常显著。
- ar.L2 的 p值为 0.038，小于0.05，也是显著的。

在理解上述参数后，此时还有标准差和置信区间这2个参数。

coef 列的值，比如 ar.L1 的 0.1939，是模型通过计算得出的最有可能的、最佳的估计值。std err（标准误差）衡量的是系数估计值的不确定性或"抖动幅度"。std err 越小，说明我们的估计越精确、越稳定。如果换一份数据，估计出的系数也不会跑偏太远。这就像一个经验丰富的射手，每次射击都紧紧围绕靶心。std err 是 0.055。这是一个相对较小的值，表明对 0.1939 这个估计是比较有信心的。

DAY 58 经典时序预测模型2

ARIMA建模的完整流程

一、 时序任务经典数据集

1.1 国际航空乘客数量 (Airline Passengers)

1.2 太阳黑子数量 (Sunspots)

1.3 加州每日女性出生数量 (Daily Female Births)

二、时间序列任务实战

2.1 加州每日女性预测

一、时序任务经典数据集