2026年APMCM 亚太杯中文赛A题自来水厂水质预测与评估完整求解思路

前言

本文将为大家带来A题的超详细解题思路。由于2025年数据较为混乱，已进行合并整理，对每个表格文件的时间列进行了标准化。下文将对A题涉及的模型、问题背景、求解中的难点以及部分模型结果进行阐述。

这个教程用通俗易懂的方式讲解如何从零开始解决APMCM A题。我们会分4个问题逐步推进：先筛选影响因素，再建立动态模型，然后预测未来水质，最后评估风险。整个过程就像当医生------先诊断病因，再开处方，最后评估患者风险。

数据来源与合并过程

附件1：2025年全年数据集，包含12个月的.xlsx文件：

复制代码

JBALB_Jan2025.xlsx    JBALB_Jul2025.xlsx
JBALB_Feb2025.xlsx    JBALB_Aug2025.xlsx
JBALB_Mar2025.xlsx    JBALB_Sep2025.xlsx
JBALB_Apr2025.xlsx    JBALB_Oct2025.xlsx
JBALB_May2025.xlsx    JBALB_Nov2025.xlsx
JBALB_Jun2025.xlsx    JBALB_Dec2025.xlsx

已合并至A题合并数据.xlsx - Sheet1，共19列变量。

数据变量说明

表1：原水及工艺控制变量（共8列）

变量	说明	范围
DATE	日期（YYYY-MM-DD），日级不连续	全年
TIME	时刻（如100, 800, 2300），日内多次记录	100--2300
RIVER LEVEL	原水水位	3--11
R/W PUMP DUTY	原水泵运行台数/组合（1, 2, 3&4等）	变量
R/W FLOW	原水流量	43--55
R/W NTU	原水浊度（关键变量）	8--200+
R/W CLR	原水色度	90--1100+
R/W PH	原水pH（个别缺失）	≈7.0--7.1

表2：滤池与清水池变量（共3列）

变量	说明	范围
FILT. NTU	滤后浊度（中间产品）	0.02--0.5，异常时>1
C/W WELL LEVEL	清水池水位	3.1--3.9
ALUM	明矾投加量（唯一控制量）	0.04--0.08

表3：出厂水质及送水变量（共7列）

变量	说明	范围
PH	出厂水pH（个别缺失）	≈7.2--7.3
NTU	出厂水浊度（预测目标）	0.08--0.8，少数>1
CLR	出厂水色度	4--5（稳定）
CL2	出厂水余氯	1.0--2.2（极值异常）
F/RIDE	氟化	"-"或0.01--1.8（部分缺测）
T/W PUMP DUTY	送水泵运行台数/组合	如"1,3""2+4"等
T/W FLOW	出厂水流量	41--55

表4：储水及其他变量（共2列）

变量	说明	范围
18ML LEVEL	18ML水位（季节性变化明显）	41--52
18ML FLOW	18ML流量（缺测较多）	多数为空

关键数据特征

原水浊度（R/W NTU）：波动剧烈，雨洪期可超200 NTU
出厂浊度（NTU）：基本稳定<1，说明工艺有效
明矾投加（ALUM）：变动少，可能存在滞后关系
时间粒度：日内多次记录（约每2小时），跨度15个月
数据缺失：部分变量（pH、氟化、18ML FLOW等）有缺测

核心概念速览

这道题在问什么？

题目背景：自来水厂要持续保证出厂水质安全。核心挑战是：

原水质量波动（雨季浊度突增）
工艺控制滞后（改变矾投加量后，效果要等几小时才显现）
需要提前预测和主动调控

我们的任务是用15个月的历史数据，建立数学模型来：

问题1：找出影响浊度的关键因素，预测未来浊度
问题2：建立动态模型，描述从投矾到效果的完整过程
问题3：预测未来12小时的出厂水质
问题4：评估水质风险等级

核心概念：浊度NTU

浊度（NTU）就是水的浑浊程度。标准：

浊度等级	NTU值	状态
安全达标	≤ 1	清澈，符合饮用水标准
预警	1 ~ 3	开始浑浊，需要调控
异常	> 3	明显浑浊，不能出厂

四个关键变量

输入（原水水质，我们无法控制）：

原水浊度 R/W NTU（下雨会剧增）
原水pH（通常稳定在7左右）
原水流量（基本稳定）

控制（水厂可以调整）：

矾投加量 ALUM（混凝剂，用来吸附杂质）
泵频率（控制流速）

输出（我们要预测的）：

滤后水浊度 FILT. NTU（经过滤池后）
出厂水浊度 NTU（最终产品）

问题1：特征筛选与浊度预测

问题理解

给定：15个月的历史数据（2025年）

要求：

筛选最重要的影响因素
建立函数关系：因素 → 浊度
预测2月1日、10日、20日的浊度
验证模型效果（R²、RMSE等）

第一步：数据探索

最重要的动作：了解你的数据。

python 复制代码

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# 读取并合并所有月份数据
df = pd.read_excel('A题合并数据.xlsx')

# 查看数据基本信息
print(df.head())          # 前5行
print(df.info())          # 数据类型、缺失值
print(df.describe())      # 均值、标准差等统计

# 绘制时间序列，看原水浊度的变化规律
plt.figure(figsize=(12,4))
plt.plot(df.index, df['R/W NTU'], label='原水浊度')
plt.plot(df.index, df['NTU'], label='出厂水浊度')
plt.axhline(y=1, color='r', linestyle='--', label='标准值1')
plt.legend()
plt.show()

你会发现：

原水浊度有明显峰值（雨季），最高能到200多
出厂水大多稳定在0.5以下
某些日期数据缺失

第二步：特征筛选

方法：相关性分析。计算各变量与出厂浊度NTU的相关系数。

关键思想：哪些变量与浊度变化方向一致，就是重要因素。

python 复制代码

# 计算与出厂浊度的相关系数
corr_with_ntu = df.corr()['NTU'].sort_values(ascending=False)
print(corr_with_ntu)

# 筛选相关系数 > 0.3 的特征
important_features = corr_with_ntu[abs(corr_with_ntu) > 0.3].index.tolist()
print(f"重要特征：{important_features}")

# 绘制相关系数热力图
import seaborn as sns
sns.heatmap(df[important_features].corr(), annot=True, cmap='coolwarm')
plt.show()

预期结果：最相关的因素通常是：

原水浊度 R/W NTU（最强相关）
矾投加量 ALUM（负相关------投矾越多，浊度越低）
原水pH R/W PH（可能有非线性关系）

第三步：建立回归模型

建立函数关系：

出厂浊度=f(原水浊度,矾投加量,原水pH,...)\text{出厂浊度} = f(\text{原水浊度}, \text{矾投加量}, \text{原水pH}, \ldots)出厂浊度=f(原水浊度,矾投加量,原水pH,...)

方法选择（从简到复）：

方法	复杂度	可解释性	推荐
多元线性回归	低	高	入门 ✓
多项式回归	中	中	升级
随机森林	高	低	高精度
神经网络	很高	很低	不推荐

推荐步骤：先用线性回归快速验证，再升级到更复杂的模型。

python 复制代码

from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import r2_score, mean_squared_error

# 数据准备：删除缺失值
df_clean = df.dropna(subset=['R/W NTU', 'ALUM', 'R/W PH', 'NTU'])

# 选择特征和目标
X = df_clean[['R/W NTU', 'ALUM', 'R/W PH']]
y = df_clean['NTU']

# 标准化（重要！）
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# 拟合模型
model = LinearRegression()
model.fit(X_scaled, y)

# 评估
y_pred = model.predict(X_scaled)
r2 = r2_score(y, y_pred)
rmse = np.sqrt(mean_squared_error(y, y_pred))

print(f"R²={r2:.4f}, RMSE={rmse:.6f}")
print(f"系数：\n{model.coef_}")  # 各特征的影响程度

# 绘制预测vs实际
plt.figure(figsize=(10,5))
plt.plot(y.values, label='实际')
plt.plot(y_pred, label='预测')
plt.legend()
plt.show()

第四步：预测未来浊度

拿到2026年2月数据（附件2），对2月1日、10日、20日的浊度进行预测。

python 复制代码

# 读取2026年2月数据
df_feb = pd.read_excel('2026年2月.xls')  # 多sheet格式

# 提取2月1日、10日、20日的数据
feb_1_data = df_feb['01.02']  # sheet名称
feb_10_data = df_feb['10.02']
feb_20_data = df_feb['20.02']

# 对每一天的数据进行预测
for day_data, day_name in zip([feb_1_data, feb_10_data, feb_20_data],
                              ['2月1日', '2月10日', '2月20日']):
    X_day = day_data[['R/W NTU', 'ALUM', 'R/W PH']]
    X_day_scaled = scaler.transform(X_day)
    pred_ntu = model.predict(X_day_scaled)

    print(f"{day_name}浊度预测：")
    for hour, ntu in enumerate(pred_ntu):
        print(f"  {hour*2}时: {ntu:.3f} NTU")

第五步：模型验证

关键指标：

R2=1−∑(yi−y^i)2∑(yi−yˉ)2（越接近1越好，>0.7可用）R^2 = 1 - \frac{\sum(y_i - \hat{y}_i)^2}{\sum(y_i - \bar{y})^2} \quad \text{（越接近1越好，>0.7可用）}R2=1−∑(yi−yˉ)2∑(yi−y^i)2（越接近1越好，>0.7可用）

RMSE=1n∑(yi−y^i)2（越小越好）\text{RMSE} = \sqrt{\frac{1}{n}\sum(y_i - \hat{y}_i)^2} \quad \text{（越小越好）}RMSE=n1∑(yi−y^i)2 （越小越好）

如果R2<0.6R^2 < 0.6R2<0.6，说明模型解释力不足，需要：

加入更多特征（如流量、温度等）
尝试非线性模型
检查是否有时滞关系（见问题2）

问题2：动态模型与时滞参数

问题理解

核心挑战 ：时间滞后。

现实：我们在早上10点投矾，但滤后浊度要到下午2-4点才能改善。这是一个时滞系统。

要求：

建立动态模型，能描述这种滞后
找出时滞参数（滞后几小时）
对模型进行参数估计和验证

时滞的概念

最简单的表示：

FILT. NTU(t)=f(R/W NTU(t−τ1),ALUM(t−τ2),R/W PH(t−τ3))\text{FILT. NTU}(t) = f(\text{R/W NTU}(t-\tau_1), \text{ALUM}(t-\tau_2), \text{R/W PH}(t-\tau_3))FILT. NTU(t)=f(R/W NTU(t−τ1),ALUM(t−τ2),R/W PH(t−τ3))

其中τi\tau_iτi是时滞（单位：小时）。

物理含义：

原水浊度的影响：基本无滞后（τ1≈0\tau_1 \approx 0τ1≈0）
矾投加量的影响：滞后2-6小时（τ2=2∼6\tau_2 = 2 \sim 6τ2=2∼6）
pH的影响：可能有1-2小时滞后

时滞参数估计

方法：网格搜索。逐一尝试不同的时滞组合，找使R²最大的组合。

python 复制代码

from sklearn.metrics import r2_score

# 定义时滞范围
lags_alum = range(0, 7)      # 矾投加：0-6小时
lags_rw_ntu = range(0, 3)    # 原水浊度：0-2小时
lags_rw_ph = range(0, 3)     # 原水pH：0-2小时

best_r2 = -np.inf
best_lags = None

# 网格搜索
for lag_a in lags_alum:
    for lag_n in lags_rw_ntu:
        for lag_p in lags_rw_ph:
            # 构建带时滞的特征
            X_lagged = pd.DataFrame()
            X_lagged['R/W_NTU_lag'] = df['R/W NTU'].shift(lag_n)
            X_lagged['ALUM_lag'] = df['ALUM'].shift(lag_a)
            X_lagged['R/W_PH_lag'] = df['R/W PH'].shift(lag_p)
            X_lagged['target'] = df['FILT. NTU']

            # 删除NaN
            X_lagged_clean = X_lagged.dropna()

            if len(X_lagged_clean) > 10:  # 至少有10个数据点
                X = X_lagged_clean[['R/W_NTU_lag', 'ALUM_lag', 'R/W_PH_lag']]
                y = X_lagged_clean['target']

                model = LinearRegression()
                model.fit(X, y)
                r2 = r2_score(y, model.predict(X))

                if r2 > best_r2:
                    best_r2 = r2
                    best_lags = (lag_n, lag_a, lag_p)

print(f"最优时滞：NTU lag={best_lags[0]}, ALUM lag={best_lags[1]}, pH lag={best_lags[2]}")
print(f"最优R²={best_r2:.4f}")

动态模型方程

找到最优时滞后，建立状态空间模型（可选，但更专业）：

简化版本（推荐入门）：

FILT. NTU(t)=a0+a1⋅R/W NTU(t−τ1)+a2⋅ALUM(t−τ2)+a3⋅R/W PH(t−τ3)+ϵ(t)\text{FILT. NTU}(t) = a_0 + a_1 \cdot \text{R/W NTU}(t-\tau_1) + a_2 \cdot \text{ALUM}(t-\tau_2) + a_3 \cdot \text{R/W PH}(t-\tau_3) + \epsilon(t)FILT. NTU(t)=a0+a1⋅R/W NTU(t−τ1)+a2⋅ALUM(t−τ2)+a3⋅R/W PH(t−τ3)+ϵ(t)

完整版本（阶跃响应模型）：

FILT. NTU(t)=FILT. NTU(t−1)+(输入的影响)+(衰减项)\text{FILT. NTU}(t) = \text{FILT. NTU}(t-1) + \text{(输入的影响)} + \text{(衰减项)}FILT. NTU(t)=FILT. NTU(t−1)+(输入的影响)+(衰减项)

这样能更好地描述：矾的效果在几小时后达到峰值，然后逐步衰减。

python 复制代码

# 用最优时滞重新拟合
lag_n, lag_a, lag_p = best_lags

X_final = pd.DataFrame()
X_final['R/W_NTU'] = df['R/W NTU'].shift(lag_n)
X_final['ALUM'] = df['ALUM'].shift(lag_a)
X_final['R/W_PH'] = df['R/W PH'].shift(lag_p)
X_final['target'] = df['FILT. NTU']

X_final_clean = X_final.dropna()
X = X_final_clean[['R/W_NTU', 'ALUM', 'R/W_PH']]
y = X_final_clean['target']

model_dynamic = LinearRegression()
model_dynamic.fit(X, y)

# 预测与实际对比
y_pred = model_dynamic.predict(X)
rmse_dyn = np.sqrt(mean_squared_error(y, y_pred))
r2_dyn = r2_score(y, y_pred)

print(f"动态模型：R²={r2_dyn:.4f}, RMSE={rmse_dyn:.6f}")

# 绘制拟合曲线
plt.figure(figsize=(12,4))
plt.plot(y.values, label='实际FILT.NTU')
plt.plot(y_pred, label='预测FILT.NTU')
plt.legend()
plt.xlabel('时间步')
plt.ylabel('FILT. NTU')
plt.show()

模型解释

拿到系数后，解读：

例如：如果系数为 $0.05,-0.3,-0.1$ $0.05, -0.3, -0.1$ $0.05,-0.3,-0.1$ ，表示：

原水浊度每升高1 NTU，滤后浊度升高0.05 NTU
矾投加量每增加0.01吨，滤后浊度降低0.003 NTU
原水pH每升高0.1，滤后浊度降低0.01 NTU

这验证了物理常识：矾投加越多，浊度越低；pH偏离中性时，混凝效果更好。

问题3：预测未来12小时出厂水浊度

问题理解

难点：多步预测。不是预测下一步（t+1），而是预测t+1到t+12的所有步骤。

要求：

结合质量守恒原理（清水池的物理模型）
结合数据驱动方法（LSTM、GRU等）
预测2月1日、10日、20日的7-19点浊度

第一步：质量守恒模型

物理基础：清水池中，水质由进水质量和停留时间决定。

简化公式：

出厂水浊度(t)=α⋅滤后水浊度(t−τ)+(1−α)⋅出厂水浊度(t−1)\text{出厂水浊度}(t) = \alpha \cdot \text{滤后水浊度}(t-\tau) + (1-\alpha) \cdot \text{出厂水浊度}(t-1)出厂水浊度(t)=α⋅滤后水浊度(t−τ)+(1−α)⋅出厂水浊度(t−1)

其中：

τ\tauτ = 清水池停留时间（通常1-3小时）
α\alphaα = 新进水对出厂水的贡献系数（取决于停留时间分布）

理解：出厂水是新进的滤后水和池中原有水的混合。

python 复制代码

# 参数估计：用历史数据拟合 tau 和 alpha
from scipy.optimize import minimize

def conservation_model(params, filt_ntu, outlet_ntu):
    tau, alpha = params
    tau = int(np.clip(tau, 1, 6))  # 时滞1-6小时

    predicted = []
    for t in range(tau, len(filt_ntu)):
        pred = alpha * filt_ntu[t-tau] + (1-alpha) * outlet_ntu[t-1]
        predicted.append(pred)

    # 计算误差
    actual = outlet_ntu[tau:]
    rmse = np.sqrt(np.mean((np.array(predicted) - actual)**2))
    return rmse

# 初始猜测
initial_guess = [2, 0.5]
result = minimize(conservation_model,
                  initial_guess,
                  args=(df['FILT. NTU'].values, df['NTU'].values),
                  method='Nelder-Mead')

tau_opt, alpha_opt = result.x
print(f"最优参数：tau={int(tau_opt)}小时, alpha={alpha_opt:.3f}")

第二步：LSTM神经网络（数据驱动）

质量守恒模型提供了物理约束，但可能不够精准。加入LSTM来学习复杂的非线性关系。

python 复制代码

from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import LSTM, Dense
from sklearn.preprocessing import MinMaxScaler

# 数据准备：创建序列
def create_sequences(data, lookback=24):
    X, y = [], []
    for i in range(len(data) - lookback - 12):
        X.append(data[i:i+lookback])  # 前24小时（12个2小时）
        y.append(data[i+lookback:i+lookback+12])  # 后12小时
    return np.array(X), np.array(y)

# 标准化
scaler = MinMaxScaler()
filt_ntu_scaled = scaler.fit_transform(df[['FILT. NTU']])

# 创建序列
lookback = 24  # 用前24小时预测
X_seq, y_seq = create_sequences(filt_ntu_scaled, lookback)

# 构建LSTM模型
model_lstm = Sequential([
    LSTM(64, activation='relu', input_shape=(lookback, 1)),
    Dense(32, activation='relu'),
    Dense(12)  # 输出12个时间步
])

model_lstm.compile(optimizer='adam', loss='mse')
model_lstm.fit(X_seq, y_seq, epochs=50, batch_size=32, verbose=0)

# 预测
pred_seq = model_lstm.predict(X_seq[-1:])  # 预测最后一天之后的12小时
pred_ntu = scaler.inverse_transform(pred_seq[0])

第三步：混合模型（结合两者）

最强做法：加权融合两个模型

最终预测=0.4×质量守恒模型+0.6×LSTM模型\text{最终预测} = 0.4 \times \text{质量守恒模型} + 0.6 \times \text{LSTM模型}最终预测=0.4×质量守恒模型+0.6×LSTM模型

权重可根据两个模型在验证集上的表现调整。

第四步：敏感性分析

分析：不同输入变化对预测的影响

如果原水浊度突增50%，出厂浊度会升高多少？
如果矾投加量减少20%，预测结果如何变化？
流量变化的影响？

python 复制代码

# 对问题1日期的基础数据进行扰动
base_case = feb_1_data.copy()

# 扰动1：原水浊度+50%
perturbed_rw_ntu = base_case.copy()
perturbed_rw_ntu['R/W NTU'] *= 1.5
pred_perturbed = model_lstm.predict([perturbed_rw_ntu...])

sensitivity = (pred_perturbed - base_pred) / base_pred * 100
print(f"原水浊度+50%，出厂浊度变化：{sensitivity:.2f}%")

# 类似地分析矾投加量、流量的影响

问题4：水质风险评价体系

问题理解

要求：

建立风险评价标准（4个等级）
对2026年1-3月的每一天分类
统计各等级占比

风险等级定义

根据超标幅度 和超标持续时间：

等级	定义	NTU条件	超标时长	含义
安全	全天达标	全天 ≤ 1	0小时	无风险
低风险	短时轻微超标	部分时段 1 ~ 2	< 3小时	可接受
中风险	较长时间超标	超过2大于3小时或 2 ~ 3	3 ~ 8小时	需要调控
高风险	严重超标	> 3 或超标> 8小时	> 8小时	紧急状态

关键指标：

超标幅度 ：(NTU−1)/1×100%(NTU - 1) / 1 \times 100\%(NTU−1)/1×100%
超标持续时长：连续超过1 NTU的小时数
峰值：当天最高浊度值

评价算法

python 复制代码

def evaluate_daily_risk(daily_data):
    """
    输入：某一天12个时间点的浊度数据
    输出：该天的风险等级
    """
    ntu_values = daily_data['NTU'].values

    # 计算超标指标
    exceeds_1 = ntu_values > 1.0
    exceeds_2 = ntu_values > 2.0
    exceeds_3 = ntu_values > 3.0

    exceed_duration = np.sum(exceeds_1)  # 单位：时间点数（每点2小时）
    exceed_duration_hours = exceed_duration * 2

    max_ntu = np.max(ntu_values)
    max_exceed_level = max(max_ntu - 1, 0)

    # 判断风险等级
    if exceed_duration == 0:
        # 全天无超标
        risk_level = '安全'
    elif exceed_duration_hours <= 3 and max_ntu <= 2:
        # 短时轻微超标
        risk_level = '低风险'
    elif exceed_duration_hours <= 8 and max_ntu <= 3:
        # 较长时间超标但<3
        risk_level = '中风险'
    elif exceed_duration_hours > 8 or max_ntu > 3:
        # 严重超标
        risk_level = '高风险'

    return risk_level, exceed_duration_hours, max_ntu

# 对全年数据进行评价
risk_results = []
for date, daily_group in df.groupby('DATE'):
    risk, duration, max_val = evaluate_daily_risk(daily_group)
    risk_results.append({
        'DATE': date,
        'Risk_Level': risk,
        'Exceed_Hours': duration,
        'Max_NTU': max_val
    })

risk_df = pd.DataFrame(risk_results)

# 统计各等级占比
risk_counts = risk_df['Risk_Level'].value_counts()
risk_pct = (risk_counts / len(risk_df) * 100).round(2)

print("风险等级统计：")
for level in ['安全', '低风险', '中风险', '高风险']:
    count = risk_counts.get(level, 0)
    pct = risk_pct.get(level, 0)
    print(f"  {level}：{count}天 ({pct}%)")

3月份具体分类

将1-3月的每一天的风险等级输出为Excel表：

python 复制代码

# 筛选3个月数据
df_3months = df[df['DATE'].dt.month.isin([1, 2, 3])]

# 评价每一天
results_by_day = []
for date in df_3months['DATE'].unique():
    daily_data = df_3months[df_3months['DATE'] == date]
    risk, duration, max_ntu = evaluate_daily_risk(daily_data)

    results_by_day.append({
        '日期': date,
        '风险等级': risk,
        '最高浊度': max_ntu,
        '超标时长(小时)': duration
    })

# 保存为Excel
result_df = pd.DataFrame(results_by_day)
result_df.to_excel('风险评价结果.xlsx', index=False)
print("已保存至 风险评价结果.xlsx")

总结与快速参考

解题流程概览

问题1（第1天）：特征筛选+线性回归，预测浊度
问题2（第2天）：网格搜索时滞，建立动态模型
问题3（第3天）：质量守恒+LSTM混合模型，12小时预测
问题4（第4天）：定义风险等级，分类评价全年数据

核心技能清单

数据清洗：删除缺失值、处理异常值
特征工程：相关性分析、时滞特征构造
模型选择：从线性→非线性→神经网络的逐步升级
混合建模：物理模型+数据驱动的融合
结果验证：R²、RMSE、敏感性分析

常见陷阱

❌ 陷阱1：忽视时滞，导致模型预测能力差
❌ 陷阱2：直接用LSTM，不理解物理约束，模型黑盒且不可解释
❌ 陷阱3：数据缺失不处理，导致模型训练失败
❌ 陷阱4：风险等级标准过松或过严，失去评估意义

评分亮点

✅ 理论与实践结合：质量守恒+数据驱动

✅ 模型可解释性：线性模型系数反映物理意义

✅ 系统性：四个问题环环相扣

✅ 严谨的验证：R²、RMSE、敏感性分析

祝你的APMCM之旅顺利！ 🚀

2026年APMCM 亚太杯中文赛A题 自来水厂水质预测与评估 完整求解思路