机器学习/数据分析--用通俗语言讲解时间序列自回归(AR)模型，并用其预测天气，拟合度98%+

时间序列在回归预测的领域的重要性，不言而喻，在数学建模中使用及其频繁，但是你真的了解ARIMA、AR、MA么？ACF图你会看么？？时间序列数据如何构造？？？，我打过不少数学建模，但是都没有弄得很清楚；

这篇将详细讲解了基础模型---AR的原理.

文章目录

1、自回归(AR)详解
2、案例

1、自回归(AR)详解

1、简要说明

什么是自回归？？

自回归：通过过去的数据预测当下的数据，是一个时间序列的基础模型，但是很有效，能够有效的捕捉数据随着时间的变化趋势。

举例解释：

在日常生活中，我们知道一般情况下，当下的气温和前几天的温度是有关系的，比如说这3天很热，明天大概率也会很热，自回归(AR)就是这样的模型，通过前几天的气温预测今天的气温，如：

今天：20度，记为a，前天：18度，记为b，大前天：22度，记为c，需要预测明天的气温
明天气温 = k₁ * a + k₂ * b + k₃* c + 随机误差， k₁ 、 k₂ 、k₃ 是权重，这个可以通过计算得出。

2、原理讲解

自回归公式(很像多元线性回归)：

y t = c + ϕ 1 y t − 1 + ϕ 2 y t − 2 + ⋯ + ϕ p y t − p + ϵ t y_t=c+\phi_1y_{t-1}+\phi_2y_{t-2}+\cdots+\phi_py_{t-p}+\epsilon_t yt=c+ϕ1yt−1+ϕ2yt−2+⋯+ϕpyt−p+ϵt

ϕ p \phi_p ϕp这是自回归系数，表示当下p个时间点 的数据对要预测的y_t 这个时间点的重要程度；
c：常数项，就如我们一元回归方差，y = ax + b中的那个b；
ϵ t \epsilon_t ϵt：误差项，用来随机生成数据，模拟波动，让预测效果更加贴近实际；
p：滞后阶数，表示用前p个数来预测当前的数据。

通过自回归公式，我当时一眼一看，这不就是多元线性回归 么？实际也确实是，只是他添加类误差项而已，实际求解的时候，也是通过最小二乘回归求解系数的。

下面是一个用自回归去探究气温的一组案例，需要关注点有两个如下：

怎么构造时间数据？？？
怎么利用最小二乘回归去求解系数？？？

3、ACF图

通过查看数的ACF图，在不同用领域有不同的用处，如下：

白噪声过程 ：时间序列是随机的，没有可预测的结构，即数据之间没有关系。
模型拟合良好 ：模型已经很好地捕捉了数据中的所有相关信息，残差是随机的。
数据本身没有自相关性 ：数据中的每个观测值都是独立的，没有时间上的依赖关系。
数据预处理的影响 ：预处理有效地去除了数据中的自相关性。

2、案例

数据：该数据描述的是这几百年的地球平均气温，下载地址：kaggle；

目的：大陆平均气温数据的探究，更加理解AR原理以及数学公式。

1、数据预处理

1、导入库

python 复制代码

import numpy as np 
import pandas as pd 
import matplotlib.pyplot as plt 
from sklearn.model_selection import train_test_split

2、读取数据且预处理

python 复制代码

data_df = pd.read_csv('GlobalTemperatures.csv')
data_df

| | dt | LandAverageTemperature | LandAverageTemperatureUncertainty | LandMaxTemperature | LandMaxTemperatureUncertainty | LandMinTemperature | LandMinTemperatureUncertainty | LandAndOceanAverageTemperature | LandAndOceanAverageTemperatureUncertainty |
| 0 | 1750-01-01 | 3.034 | 3.574 | NaN | NaN | NaN | NaN | NaN | NaN |
| 1 | 1750-02-01 | 3.083 | 3.702 | NaN | NaN | NaN | NaN | NaN | NaN |
| 2 | 1750-03-01 | 5.626 | 3.076 | NaN | NaN | NaN | NaN | NaN | NaN |
| 3 | 1750-04-01 | 8.490 | 2.451 | NaN | NaN | NaN | NaN | NaN | NaN |
| 4 | 1750-05-01 | 11.573 | 2.072 | NaN | NaN | NaN | NaN | NaN | NaN |
| ... | ... | ... | ... | ... | ... | ... | ... | ... | ... |
| 3187 | 2015-08-01 | 14.755 | 0.072 | 20.699 | 0.110 | 9.005 | 0.170 | 17.589 | 0.057 |
| 3188 | 2015-09-01 | 12.999 | 0.079 | 18.845 | 0.088 | 7.199 | 0.229 | 17.049 | 0.058 |
| 3189 | 2015-10-01 | 10.801 | 0.102 | 16.450 | 0.059 | 5.232 | 0.115 | 16.290 | 0.062 |
| 3190 | 2015-11-01 | 7.433 | 0.119 | 12.892 | 0.093 | 2.157 | 0.106 | 15.252 | 0.063 |

3191	2015-12-01	5.518	0.100	10.725	0.154	0.287	0.099	14.774	0.062

3192 rows × 9 columns

python 复制代码

# 只保留日期和LanAverageTemperatrue
data_df = data_df[['dt', 'LandAverageTemperature']]

python 复制代码

# 查看数据信息
data_df.info()

复制代码

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3192 entries, 0 to 3191
Data columns (total 2 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   dt                      3192 non-null   object 
 1   LandAverageTemperature  3180 non-null   float64
dtypes: float64(1), object(1)
memory usage: 50.0+ KB

python 复制代码

# 缺失值较少，采用前置填充方法
data_df = data_df.fillna(method='ffill')

python 复制代码

# 时间转化为datatime格式
data_df['dt'] = pd.to_datetime(data_df['dt'])
# 按照日期排序，确保日期按照顺序
data_df = data_df.sort_values(by='dt')

python 复制代码

# 设置日期索引，方便快速查询
data_df.set_index('dt', inplace=True)

# 为了更方便后面展示，这里选取最近1000条数据，全部展示，后面绘图，全都堆到一起
data_df = data_df.tail(1000)

2、实现自回归模型

python 复制代码

# 深刻理解代码
def create_lagged_features(data, lag):
    x = []
    y = []
    for i in range(lag, len(data)):
        x.append(data[i - lag : i])
        y.append(data[i])
    return np.array(x), np.array(y)

python 复制代码

# 使用 5 阶(联系数学公式) 自回归模型
lag = 5
# 提取特征值，目标值(也就是自变量，因变量)
all_temperature_data = data_df['LandAverageTemperature'].values

python 复制代码

# 获取自变量、因变量
X, Y = create_lagged_features(all_temperature_data, lag)
# 分割数据集
x_train, x_test, y_train, y_test = train_test_split(X, Y, test_size=0.2, random_state=42)

在实际应用中，我们通常会先添加常数项 ，然后再计算回归系数，因为这样可以保证模型能够捕捉到数据的全局趋势。

python 复制代码

# 使用最小二乘法拟合 自回归 模型
def fit_regresiion(x_train, y_train):
    # 添加常数项, b(结合公式)，添加一项，为了适应维度
    x_train = np.c_[np.ones(x_train.shape[0]), x_train]
    # 计算回归系数，结合公式 np.linalg.inv 求逆
    beta = np.linalg.inv(x_train.T @ x_train) @ x_train.T @ y_train
    return beta

python 复制代码

# 拟合，得到回归系数
beta = fit_regresiion(x_train, y_train)
beta

输出：

复制代码

array([ 5.07449781, -0.04255702, -0.22825367, -0.2961153 ,  0.06135681,
        0.93721175])

3、模型预测

python 复制代码

def predict_ar_model(x, beta):
    # 添加常数项
    x = np.c_[np.ones(x.shape[0]), x]  # 添加常数项
    # 预测
    y_pred = x @ beta   # 自己相乘，结合公式
    return y_pred

# 测试集、训练集测试
y_pred_train = predict_ar_model(x_train, beta)
y_predict_test = predict_ar_model(x_test, beta)

4、数据分析和可视化

1、原始数据时间序列图

python 复制代码

plt.figure(figsize=(10, 6))
plt.plot(data_df.index, data_df['LandAverageTemperature'], color='orange', label='Temperature')
plt.title('Global Land Average Temperature Over Time')
plt.xlabel('Year')
plt.ylabel('Temperature')
plt.legend()
plt.grid(True)
plt.show()

2、训练集和测试集的预测结构对比图

python 复制代码

plt.figure(figsize=(10, 6))
plt.plot(y_train, label='Actual Train', color='blue')
plt.plot(y_pred_train, label='Predicr Train', color='red', linestyle='dashed')
plt.title('AR Model')
plt.xlabel('Time')
plt.ylabel('Temperature')
plt.grid(True)
plt.show()

plt.figure(figsize=(10, 6))
plt.plot(y_test, label='Actual Test', color='blue')
plt.plot(y_predict_test, label='Predicr Test', color='red', linestyle='dashed')
plt.title('AR Model')
plt.xlabel('Time')
plt.ylabel('Temperature')
plt.grid(True)
plt.show()

3、残差分析

残差图分析误差

python 复制代码

residual = y_test - y_predict_test   # 残差计算
plt.figure(figsize=(10, 6))
plt.plot(residual, color='green', label='Residual')
plt.title('Residual of AR on Test Data')
plt.xlabel('Time')
plt.ylabel('Residual')
plt.legend()
plt.grid(True)
plt.show()

4、正相关(ACF)

检查残差的自相关性，查看是存在未捕捉时间特征

python 复制代码

from statsmodels.graphics.tsaplots import plot_acf

plt.figure(figsize=(10, 6))
plot_acf(residual, lags=50)   # 展示前50个滞后
plt.title('ACF OF RESIDUAL')
plt.grid(True)
plt.show()

复制代码

<Figure size 1000x600 with 0 Axes>

默认置信区间，显著性水平是5%
acf图中，值接近为0，几乎全在置信区间内，说明残差数据之间没有关系，残差是随机的，模型有效的捕捉到了时间特征

5、结果分析

python 复制代码

from sklearn.metrics import mean_squared_error, r2_score

mse = mean_squared_error(y_test, y_predict_test)
r2 = r2_score(y_test, y_predict_test)

print('mse: ', mse)
print('r2', r2)

复制代码

mse:  0.19718326089184698
r2 0.9889418324562267

综上说明模型有效挖掘了天气的规律