高维数据预处理是把变量特别多、信息特别杂的数据先"瘦身"和"洗干净":删掉没用的列、把缺失值补齐、把不同量纲的数拉到同一尺度,再想办法用主成分分析、特征选择或降维把几千维压成几十维,让模型跑得动、不迷路。
做完这一步,数据既保留了大部分有用信号,又甩掉噪声和冗余,后面的机器学习算法才能训练得稳、解释得清,不会"被维度吓死"或"把噪声当真理"。
可解释人工智能(XAI)让模型在给出结果的同时,用人类可理解的语言或图像说明"为何如此决策",以满足医疗、金融、司法等高风险领域的合规审计、建立用户信任,并帮助开发者快速发现偏见、修复错误。
它通过自解释模型(如决策树、线性模型)或后解释工具(LIME、SHAP、Grad-CAM、反事实)提供全局或局部理由,并用保真度、可理解性等指标评估,正成为 AI 从"能用"走向"敢用、好用、可追责"的关键一步。
不确定性量化就是给模型的每个预测配一个"靠谱度标签":不光告诉你明天降雨概率 70%,还告诉你这 70% 的置信区间是 60--80%,让决策者知道该不该带伞。
它用贝叶斯、Bootstrap、集成模型等方法算出数据噪声和模型误差,把"可能出错"的范围亮出来,避免人类把 AI 的"猜测"当成"真理"。
本次内容的独特优势在于:以科学问题为牵引,融合经典统计思想、现代AI算法与前沿大模型理念;注重模型的可解释性、物理一致性与不确定性表达;并通过大量环境、气象、水文等典型案例,打通从算法理解到科研落地的全链条。
专题一 夯实建模起点:理解模型本质,规范预处理流程
1.数据尺度分类:名义数据、有序数据、定距数据、比率数据
2.多维数据结构:时间序列、纵向数据、空间场数据、面板数据以及内生/外生变量辨析
3.缺失值处理:基于统计的插补,多重插补
4.异常值处理:基于统计的异常值处理,基于模型的异常值处理
5.特征工程以及高级特征构造:熵、Hurst指数、滑动统计量
专题二 模型评估、验证与不确定性量化
1.交叉验证与K折检验
2.性能指标体系:MAE、RMSE、R²与交叉熵
3.不确定性来源:数据、参数、结构、情景
- 模型诊断:残差分析、AUC
5.贝叶斯统计学:置信区间与可信区间
专题三 高维与复杂结构数据降维
1.主成分分析(PCA)
2.奇异值分解(SVD)与低秩逼近
3.经验模态分解(EMD)与 Hilbert 谱
4.季节分解(STL)
5.非负矩阵分解(NMF)用于源解析
6.独立成分分析(ICA)与核 ICA
7.正交经验分解(EOF)
专题四 时频分析与谱方法 揭示周期、突变与多变量协同机制
1.傅里叶变换与功率谱密度
2.小波变换与局部时频表征
3.互谱、相干性与相位同步
4.Hilbert-Huang 变换(HHT)处理非平稳信号
5.多元小波相干分析
专题五 高级回归建模:超越线性假设
1.线性回归与指数族
2.广义线性模型(GLM):泊松、负二项、Gamma、零膨胀
3.分位数回归:刻画条件分布全貌
4.非参数回归:核平滑、局部多项式
5.正则化:如果观测值太少怎么办?Lasso、Ridge、Elastic Net、LARS
专题六 高精度预测与非线性预测工具箱
1.决策树与随机森林
2.梯度提升树:XGBoost、LightGBM、CatBoost
3.支持向量机(SVM)与核函数选择
4.堆叠集成(Stacking)与超参数调优
专题七 可解释人工智能(XAI)
1.全局解释:变量重要性、部分依赖图(PDP)、SHAP
2.局部解释:高级SHAP(Tree/Kernel/Conditional)、LIME
3.交互效应量化:H 统计量、SHAP 交互值
4.对抗可解释性陷阱:相关≠因果、特征泄露警示
专题八 深度学习处理图像与光谱
1.多层感知机(MLP)与激活函数选择
2.自编码器(AE)与变分自编码器(VAE)
3.卷积神经网络(CNN):LeNet → ResNet
4.U-Net 架构:语义分割与边界保持
专题九 深度学习进阶:序列、生成与注意力 建模动态演化、生成模拟与长程依赖
1.RNN / LSTM / GRU:记忆机制对比
2.Attention 机制原理
3.Transformer 与 Swin Transformer
4.生成对抗网络(GAN)用于数据增强与反演
5.扩散模型
专题十 时空依赖与耦合
1.克里金插值
2.时空分解:STL 扩展、动态 EOF
3.ConvLSTM、PredRNN 等时空预测架构
4.Transformer 在时空序列中的应用(如 TimeSformer)
★ 点 击 下 方 关 注,获取海量教程和资源!
↓↓↓