- 模型假设仅仅是简单陈述吗?
- 允许AI的使用是否降低了比赛难度?
- 还在依赖机器学习的模型吗?
- 处理题目的方法有哪些?
- O奖论文的优点在哪里?
本文调研了当年赛题的评委文章和O奖论文,这些问题都会在文章中一一解答。
引言
每年美赛结束后,评委 根据参赛情况撰写评论文章,其中包括:
- 为了求解24年C题,可以采用哪些方法 和模型?
- 24年C题的论文优点 有哪些?缺点又是什么?
- 对文章其他部分的评价:数据预处理 、AI的使用...
本文结合评委意见和当年O奖论文对24年美国大学生数学建模竞赛C题做出要点分析和总结,让我们一起来看看2024年美赛C题赛题分析吧!
省流
相关文章:
2023年美赛C题评委文章及O奖论文解读 | 美国大学生数学建模竞赛 从评委和O奖论文出发-O奖论文做对了什么?
简介
背景
24年C题要求团队基于网球比赛数据集进行建模,要求模型具有两个特点:在比赛任何时刻揭示 和预测球员的表现和表现差异;通过势头及其变化揭示球员优势。
此次比赛首次允许使用AI资源,但应记录查询内容和AI回应。
问题重述
在此进行简单的问题说明。
- 构建一个可以捕捉比赛进行时局势流动 的模型,当应用到比赛中时,可以确定某个时刻哪个球员表现好 以及其优势有多大;
- 用模型或指标来判断球员表现波动 和成功的连续发生是否随机;
- 创建一个模型来预测势头的变化,并探索其与比赛特定因素(如选手状态、比赛关键节点等)的关系,判断哪一个最关键;
- 提出能够量化势头的指标,基于这些指标预测不同比赛的势头趋势,并讨论模型的适用性和可靠性。
- 向教练提供关于"势头"作用的建议,以及如何让球员应对在网球比赛中影响比赛流程的事件。
问题假设
好的假设是数学化的陈述 +合理的解释,例如队伍2418251提出每局比赛中的势头是离散的。
还有队伍2425454提出当队员得分,会获得"激励效果",从而增加得分概率。识别并合理化任何(以及所有)建模假设,这是建模过程中必要的要求。
仅仅为了满足流程而要求呈现的简单陈述并不被看好,例如"假设所给数据是真实准确的"、"假设选手的比赛目标是获胜"。
评委意见:建模假设需要进行讨论和评估,可以通过敏感性分析和模型测试来证明模型的适当性和充分性。
AI的使用
是否可以直接用AI来进行建模和编程?答案是否定的。
评委意见:与通过同行评审确保质量控制并增强结果可信度的研究不同,AI生成的结果在这方面是未经验证和不受约束的。
因此,在妥善引用AI的同时,还应对结果进行验证 。然而,美赛时间本来就紧张,再去对AI结果进行验证,可能会成为时间陷阱。
在比赛中使用AI的队伍,大多为了解决4个方面的内容:
- 改善段落或句子的表达;
- 检查或建议小型程序代码段;
- 帮助识别相关的文献来源;
- 提议关于如何开始建模网球势头概念的方法。
例如,队伍2401919采用AI明确定义、生成小段示例代码、提出解决问题的建议。
数据处理
数据预处理
拿到数据集后首要工作便是数据预处理,需要评估数据的有效性,处理异常值和缺失值。
以本次数据集中speed_mph参数为例,通过散点图可以明显看出有数据异常,可以采用删除数据点 、滑动窗口平均等方法进行处理。
利用软件或机器学习求解
MCM评委很不推荐采用"全盘灌输"式的软件求解方法和直接将机器学习的结果合理化为比赛中的势头及其变化的方法
数学建模是为了体现创造性和批判性思维,通过蛮力和偶然性找到有效建模方法,抑或将机器学习方法以"黑箱"方式使用,都缺乏对模型参数选择原因的讨论,即使在最后使用这些方法进行jiacha或敏感性分析,也只是为了表明所做选择是合理的。
评委意见:如果要选用机器学习的方法,最好选择一种可以在少量假设条件下最佳应用的机器学习方法,并在之后逐步放宽这些假设,以提升模型的真实性能和可靠性。这种方法能够更好地体现团队的技术能力和建模思维。
队伍2403774便很好地利用了神经网络。该队伍首先利用贝叶斯在线拐点检测方法预测出拐点所在区间,接着采用时序卷积网络(TCN)进行准确预测,同时针对网球比赛的特点,进行有意义的改进,设计出多阶段时序卷积网络(MSTCN)来整合多个时间尺度的比赛信息,以进行模型预测。
通过查阅文献逐步进行建模
在撰写论文时,应体现构建模型的过程,从而反映出参赛人员对于题目的理解,更符合评委的胃口。
通过查阅可靠专业来源,先识别可能构成"势头"的信息性要素;接着依靠这些数据,采用线性或非线性的方法进行建模,构建动态表达式。不同的动态表达式取决于队伍的选择,并且都有研究文献的支持。
评委意见:动态表达式的方法更符合数学建模的理念,能够更有效地解释每个术语在最终表达式中的构建过程及其意义。
队伍2409404通过线性表达式,量化势头,并画出比赛过程中势头的变化曲线。
任务一:构建反映局势流动的模型
题目所给的数据集很庞大,提供了丰富的潜在数据元素来表示势头及其在网球比赛中的变化。因此,需要从中进行选择,构建数据子集,减少复杂度。
评委意见:传统的TOPSIS(与理想解的贴近度排序法)模型由于依赖于主观指标权重,会显著影响结果。因此,主成分分析(PCA)成为一种客观的分析方法,用于降低数据维度。
例如,队伍2401919采用PCA-TOPSIS模型开发了一个全面的球员表现评估系统。首先得出所有因素的相关系数矩阵,计算特征值;接着从中挑选出6个具有最大的特征值的因素作为主成分决策矩阵;最后计算特征值在所有特征值中的占比,得出因素权重。
数据降维有很多种方法:主成分分析(PCA)、线性判别分析(LDA)、奇异值分解(SVD)、自回归积分滑动平均(ARIMA)和熵。
任务二:判断"势头"在比赛中是否起作用
这道题的本质和2023年美赛C题类似,实际上就是判断第一问模型的结果和实际比赛结果的比较:如果二者相近,则"势头"在比赛中起作用,否则不起作用。于是,可以使用假设检验等一系列方法进行求解和判断。
阅读剩余内容点这里,包括
评委对势头预测模型的评价如何?评委是否认可神经网络、XGBoost等黑盒方?。
其他队伍如何建立势头预测模型?在这个问题中评委最看重哪些部分?
对模型准确性验证在评分中占比大吗?
敏感性分析是否必要?获奖论文如何进行敏感性分析?
评委给出的获奖论文的必要条件有哪些?
以及文末要点总结。
如果你觉得内容还不错,可以点击链接阅读全文