给大家分享一下个人认为美赛C/E/F题应该掌握的一些技巧,我不太想讲和基础的一个个小模型,而是从历年OF论文中整理出来的一些取胜之匙🔑,这样的干货确实比较少见,欢迎有志之士共同探讨。
1.评价类模型
EWM-TOPSIS【综合评价模板】 - 可替换老古董AHP
PCA【降维】- 注意要结合"语文建模"解释凝练主成分含义
K-means++ 【聚类】 ++的初始化优化思想也可以用来改其他模型
GE matrix 【定性分析思想】,用来给措施和建议,EF题常用,没那么数学,但比干说强。
2.预测类模型
时间序列预测 :GM(1,1)灰色预测;ARIMA;Prophet; LSTM;ARIMA-LSTM组合
回归预测:LR;Ridge;Lasso;逻辑回归;决策树;RF;GBDT;XGBoost;Adaboost;Catboost;lightGBM
回归评价指标:MSE、RMSE、MAPE、MAE、R^2
**分类预测:**逻辑回归、KNN、SVM、高斯朴素贝叶斯、多层感知机、决策树、Adaboost、XGBoost、Catboost、随机森林
分类评价指标:Accuracy、Precision、Recall、F1、AUC、logloss P-R曲线、ROC曲线、混淆矩阵。
延申:SMOTE Stacking SHAP 特征选择中的null-importance 参数调优(网格、随机、贝叶斯、优化算法)
3.优化类
问题层面:单目标、多目标 线性 非线性 整数规划 混合整数规划 0-1规划
算法层面:遗传算法 NSGA-II MOEA-D NSGA-III PSO 禁忌搜索 蚁群 模拟退火 差分进化
求解器层面:GurobI 杉树COPT pulp(CBC)
4.其他类
插值:三次样条插值
拟合:多项式拟合 高斯函数拟合 切比雪夫多项式拟合
图/路径优化:A* 迪杰斯特拉
异常处理:孤立森林 箱线图 3sigma
数据题常见建模思路:
多模选优,多个模型去比较选最佳模型完成预测任务
多模融合,如:ARIMA-LSTM stacking
单模优化 如:改进GA等
写在最后,做了很多的数学建模比赛,如果我评价数学建模,我只有一句话:**数学建模是一个在有效时间内通过三人协作、用数说理,最后提供解决方案的过程,说服力是第一位。**首先,数模是个合作项目,当然有些大佬喜欢单刷,但我并不喜欢也并不支持这种做法,数模的魅力之一就是短时间的集思广益,单刷个人觉得是没有意思的,我更加享受共同成长的喜悦,哪怕是共同吞下失败的苦果,一顿火锅就释然了,单刷拿奖只能吃碗猪脚饭喽。其次,咱们做的这件事情叫做数学建模,数学两字赫然,数据是源头,数学是我们的工具,模型是我们的载体。一定要从数据出发,例如使用那些机器学习模型,绞尽脑汁优化模型不如好好从数据出发做好特征工程。咱的目的是为待解决的问题提出一个能够说服别人的方案。注意,不是要解决问题,而是提供一个有效方案,我说这句话是想让一些同学放下一些执念,觉得我建的模型一定到从生活出发,到生活中去,那要咱的模型假设干啥捏。最后,总有人问我为什么我模型用的很难,或者我整体做的很顺但是没有获奖,那是因为你没有带入评审视角,这里你甚至可以带入社畜视角。那么多的论文总有的要被标上"平庸"的标签,为什么平庸,其实就是没有亮点,有的大神会吐槽美赛太注重画图,太要美了,但是想想,呈现的精美就是一种亮点,归根到底是在用精美的可视化去说服评委,这是正确的竞争姿态!因为,这是一个提供解决方案的事情,如果你是甲方爸爸,选方案的时候只要有亮点抓住你,大概率就会让他多看几眼,几眼就够了其实。同样,说服别人的时候咱也不能太炫技,只能说投入和收益不一定成正比,例如深度学习在美赛没有太受欢迎。