本文为《 Data-augmented machine learning improves water treatment design:
Precise prediction of PPCPs reaction with reactive radicals 》的阅读笔记,原文链接:https://doi.org/10.1016/j.watres.2025.125259。
华东理工大学团队在 Water Research 2026 年 291 期发表《 Data-augmented machine learning improves water treatment design:
Precise prediction of PPCPs reaction with reactive radicals 》,提出 VAE-ML 数据增强框架。通过变分自编码器(VAE)将 28 条 PPCPs 与 CO₂・⁻反应动力学数据扩展,使训练集从 22 条增至 122 条。最优 VAE-ANN 模型测试集R2=0.88,较基线模型提升 0.15-0.29,且成功泛化至・OH 主导的 AOPs。结合 SHAP 揭示电子转移主导机理,为水处理工艺优化提供精准、可解释的 AI 方案。
高级氧化 / 还原技术(AOPs/ARPs)是 wastewater 中有机污染物的 "强效降解剂",但自由基与污染物的反应动力学数据稀缺,导致机器学习模型易过拟合、泛化能力差。华东理工大学团队在《Water Research》发表研究,创新性引入变分自编码器(VAE)进行数据增强,构建 "VAE-ML" 框架,不仅将反应速率常数预测精度大幅提升,还通过 SHAP 揭示分子机理,为水处理工艺优化提供精准解决方案。
一、水处理 AI 的 "卡脖子" 难题:数据稀缺制约研发
在水处理中,精准预测污染物(如药物与个人护理品 PPCPs)与自由基(如 CO₂・⁻、・OH)的反应速率常数(k),是优化降解效率的核心。但实际应用中面临两大关键障碍:
数据获取成本极高:通过纳秒激光闪光光解(LFP)实验测定反应速率常数,流程复杂、耗时费力,本研究仅获取 28 条有效数据(23 条实验测定 + 5 条文献补充);
模型性能受限:小样本下,深度学习与集成模型易过拟合,线性模型虽相对稳定但预测精度不足,且难以捕捉分子间复杂的非线性关系,无法深入解释反应机理。

图1 28种 PPCPs 与 CO₂・⁻反应速率常数分布及特征相关性热图
二、VAE 的 "数据魔法":小样本变身大数据
VAE 作为生成式模型,通过 "编码器 - 解码器" 架构,从少量真实数据中学习分布规律,生成可信的合成数据,完美破解小样本困境:

图2 VAE-ML水处理预测框架全流程
2.1 VAE 核心原理与关键公式
VAE 的核心是通过编码将高维分子描述符映射到低维潜在空间,再解码生成新数据,其训练依赖关键公式支撑:
证据下界(ELBO)损失函数:平衡数据重构精度与潜在空间的平滑性,确保生成数据贴合真实分布

其中qϕ(z|x)是编码器的变分分布,pθ(x|z)是解码器的生成分布,DKL为 KL 散度,避免生成数据偏离真实分布。
潜在空间重参数化:通过随机采样生成多样化合成数据

μ和σ是编码器输出的均值与标准差,ϵ为标准正态分布的随机噪声,保证生成数据的多样性与合理性。
2.2 数据增强全流程
分子描述符构建:通过 Gaussian、Multiwfn 等工具,计算结构、量子化学等 93 个初始特征,经 Lasso 回归筛选出 18 个关键描述符;
VAE 训练生成:以 22 条训练数据(80% 总数据)为基础,训练 VAE 生成 100 条合成数据,使训练集扩展至 122 条;
分布验证:核密度估计(KDE)验证显示,合成数据与真实数据分布高度一致,峰值偏差仅 5%,确保数据有效性。
三、模型性能飙升:从线性到非线性的跨越
3.1 预测精度大幅提升
模型性能评估依赖两大核心指标:

其中ypi、yti、ym分别为预测值、真实值与均值,N 为样本数。实验结果显示:

图3 VAE-ANN模型预测性能及各模型精度对比
基线模型:小样本下线性模型(ElasticNet)表现最佳,R2=0.86,非线性模型(ANN、RNN 等)因过拟合性能较差;
VAE 增强后:所有模型性能显著提升,VAE-ANN 模型表现最优,测试集R2=0.88、RMSE=0.21,较基线模型R2提升 0.15-0.29;
泛化验证:将框架扩展至・OH 主导的 AOPs,同样大幅提升预测精度,证明其通用性。
3.2 机理清晰可解释

图4 VAE-ANN模型特征重要性及部分依赖关系图
通过 SHAP 分析与部分依赖图(PDP),揭示反应核心影响因子:
关键分子特征:HOMO-LUMO 能隙(EGAP)、分子硬度(S)、表面静电势(ESPposper)等是决定反应速率的核心;
反应机制:电子转移主导污染物降解,低EGAP、低分子硬度、强局部富电子中心的 PPCPs,反应速率更高,为工艺优化提供定量指导。
四、应用价值:水处理工艺优化的 "智能指南"
该框架的落地将为水处理行业带来实际变革:
降低实验成本:减少昂贵的 LFP 实验需求,通过 AI 生成数据辅助模型训练,大幅降低研发成本;
优化工艺参数:精准预测不同污染物的降解速率,指导自由基生成剂用量、反应条件调控,提升处理效率;
拓展应用场景:可推广至各类有机污染物的降解预测,适配 AOPs/ARPs 等不同水处理工艺。
五、总结:数据增强 + AI,解锁水处理新可能
VAE-ML 框架的核心价值,在于用生成式 AI 突破小样本限制,既提升了预测精度,又实现了机理可解释性。其 88% 的测试集R2、0.15-0.29 的精度提升,为环境科学中 "数据稀缺" 问题提供了通用解决方案。未来,该框架有望广泛应用于各类水处理场景,让 AI 更高效地助力污染治理,守护水资源清洁。
点击更多,学习更多精彩内容。
