第21周：机器学习

This week's study mainly centered on the pre-course presentation of the course "Machine Learning", reading a paper on ARIMA model and K-means algorithm, learning the basic theory of the model, code reproduction and PowerPoint presentation. The weekly report mainly summarizes the above theory, data processing, and experimental graph analysis.

文献：Application of Time Serial Model in Water Quality Predicting

一、ARIMA模型

1、时间序列模型

时间序列：沿着时间的发展，记录下随机变量的数据，通过直观的数据比较或绘图观察 ，寻
找序列中蕴含的发展规律

（1）时间序列的分析方法

确定性因素分解法

确定性因素分析法：假定序列会受到以下四个因素中的全部或部分的影响，导致序列呈现出不同的波动特征。

随机性因素分解法

（随机性因素）频域分析法：它假定任何一种无趋势的时间序列都可以分解为若干不同频率的周期波动，借助傅里叶变换，用正弦、余弦之后来逼近某个函数。

时域分析方法

时域分析方法：是从序列自相关的角度揭示时间序列的发展规律。

（2）时间序列的预处理

时间序列 的数据结构与传统的数据结构不同，它可以有多个随机变量X ，但是每个变量只有1个观察值x。

平稳性检验

严平稳： 只有当序列所有的统计性质都不会随着时间的推移而发生变化时，该序列才能被认为平稳。

下面是统计量：

方法1------时序图检验

原理： 平稳时间序列具有常数均值和方差 。这意味着平稳序列的时序图应该显示出该序列始终在一个常数值附近波动 ，而且波动的范围有界

上面两幅时序图都不是"平稳序列"，因为明显可以看出，左图是具有"趋势性 "，右图具有"周期性 "，这都是非平稳的特点。

方法2------自相关图检验

方法3------单位根检验

**迪基-福勒检验（Dickey-Fuller test）：**是一种在统计学中用于检验时间序列是否存在单位根的统计检验方法。单位根的存在意味着时间序列具有随机游走的特性，从而是非平稳的。该检验的零假设（H0）是时间序列中存在单位根，即序列非平稳；备择假设（H1）是时间序列中不存在单位根，即序列平稳。

检验步骤：

step1 比较检验统计量Test Statistic与临界值Critical Value

step2 考虑p-value

纯随机性检验（白噪声检验）

随机性检验：是专门用来检验序列是否为纯随机序列的一种方法。理想状态下，它的序列值之间应该没有任何相关关系即自相关系数；现实状态下，自相关系数确实都非常小, 都在零值附近 以一个很小的幅度随机波动。

Barlett 定理： 设定观察序列 服从"期望为0，方差为1/n（n是滞后数）"正态分布

step1 构造假设性检验：

step2 设定统计量：

step3 假设性检验的判别：

其中统计量LB的值就是P

step4 得出结论

（3）ARIMA模型的引入

wold分解 定理：对于任意一个离散平稳时间序列 , 它都可以分解为两个不相关的平稳序
列之和, 其中一个为 确定性 的, 另一个为 随机性 的。

是确定性序列，它一般都能够等价表达为历史序列值 的线性函数

是随机性序列，每个时期加入的新的随机信息。它们相****互独立，不可预测（当前的序列值不由历史序列值决定）

2、AR模型

拖尾性

拖尾性： ACF图和PACF图中的自相关系数随着滞后阶数的增加而逐渐减小 ，但不会迅速降为零，而是以某种速率缓慢接近零

p阶截尾性

截尾性： PACF图在特定阶数后迅速降低到0

3、MA模型

4、小结

二、K-means聚类算法

K-Means聚类算法是一种经典的无监督学习算法，用于将数据集中的样本划分为K个聚类（clusters），使得簇内样本相似度高，簇间差异性大，其中每个样本只属于一个聚类。

其计算为欧几里得距离公式：

计算步骤：

step1 聚类类别个数设定

自定义

step2 初始聚类中心选择

随机选择1个或者k个初始点

step3 数据点分配

对于数据集中的每个数据点 ，计算其与每个聚类中心的距离；然后将每个数据点分配到最近的聚类中心，从而形成K个聚类。

step4 聚类中心更新

对于每个聚类，计算聚类中所有点的均值；然后将该均值设置为新的聚类中心。

step5 迭代直至收敛

重复步骤3和步骤4，直到满足以下条件：达到设定阈值，或者聚类内的总内平方和（SSE）不再显著下降。

三、实验

该论文基于时间序列模型的水质预测，文章中选取了总氮量TP作为水质预测的衡量指标，对一个水域进行ARIMA模型的时间序列分析和预测。文章给出了数据集的平台，所以本实验对数据进行了收集并应用与模型中去。

1、数据处理

python 复制代码

from datetime import datetime

dateparse=lambda dates: datetime.strptime(dates,'%Y-%m-%d %H:%M:%S')
data=pd.read_csv('E:\pytorch学习\water_predict\my_new_data_dropped.csv',parse_dates=['时间'],index_col='时间',date_parser=dateparse)
data.head()
#查看数据的索引
print(data.index)  #上面的数据处理就是把"时间"作为index
print(data)

需要单独对"时间"和指标"TP"进行数据提取和相关的缺失值处理等。

dateparse函数是一个匿名函数：定义时即被调用

pd.read_csv函数中的参数解读：

parse_dates：指定包含日期时间信息的列；index_col：在TS数据中使用pandas的关键是索引必须是 日期等时间变量 ；date_parser：它指定了一个将输入字符串转换为datetime可变的函数

可以看出，将"时间"变成了新的索引

提取出"TP"值，并将它和时间索引合为一个序列再转换成数值，并且删除空值

python 复制代码

obj=data['总磷mg/L']
ts = pd.Series(obj, index=data.index)
ts = pd.to_numeric(ts, errors='coerce')# 尝试将 timeseries 转换为数值类型，无法转换的值将被设置为 NaN
ts = ts.dropna() #删除含有 NaN 的行
print(ts)