基于多模型分析的奥运会奖牌预测与影响因素研究
- 解题思路
- 一、问题重述
- 二、问题分析
- 三、模型假设与符号说明
- 四、数据预处理
- 五、奖牌榜预测
-
- [5.1 基于LSTM长短期记忆循环神经网络的预测模型的建立](#5.1 基于LSTM长短期记忆循环神经网络的预测模型的建立)
- [5.2 模型预测结果](#5.2 模型预测结果)
- 六、首枚奖牌预测
-
- [6.1 BP神经网络的建立](#6.1 BP神经网络的建立)
- [6.2 模型预测结果](#6.2 模型预测结果)
- 七、各国奖牌数量与赛事关系模型的建立与求解
-
- [7.1 模型的建立](#7.1 模型的建立)
- [7.2 赛事与各国奖牌数量关系模型的建立](#7.2 赛事与各国奖牌数量关系模型的建立)
- [7.3 关系模型求解](#7.3 关系模型求解)
- 完整论文与代码
C题的选题人数一般来说比较多,本人曾经获得美赛O奖,请F奖学长一起完成了C题的完整论文,同时整理代码与绘图。
解题思路
针对问题一,目标是构建模型来预测和分析各国的奖牌数量。具体分为三个小步骤:
- 第一小步利用LSTM(长短期记忆)循环神经网络进行奖牌数量的预测。此步骤需整合历史奖牌数量、参赛人数以及选手的参赛经验等数据作为输入特征,训练模型以预测未来的奖牌数量。预测完成后,通过对预测结果施加扰动,我们可以得到一个预测区间,这一区间能够反映预测的不确定性。随后,将这些预测结果与历史时序数据进行对比,从而评估各国的奖牌表现是进步还是退步。
- 第二小步基于BP(反向传播)神经网络预测2028年未获奖国家的获奖情况。历史参赛人数和最新一届选手的参赛经验将被用作输入特征来建立预测模型。为了验证模型的准确性,需划分出测试集对模型性能进行评估。
- 第三小步关注于赛事开赛情况与获奖情况之间的相关性分析。首先,通过Shapiro--Wilk分布检验确定数据的分布特征,据此选择斯皮尔曼或皮尔逊相关性检验方法。接着,深入分析各国历年各赛事的开赛情况与奖牌数量之间的关系以揭示潜在的关联。
针对问题二,目标是探究"伟大教练"效应及其对奖牌数量的影响。同样分为三个小步骤:
- 第一小步利用Pelt算法检测变点,结合损失函数优化分段模型,以寻找可能由"伟大教练"效应引起的变化证据。
- 第二小步要求估计"伟大教练"对奖牌数量的具体贡献。这需要将各国各项目进行分类,并分别计算"伟大教练"对不同基础国家奖牌数量的影响,从而量化其效应。
- 第三小步聚焦于确定三个国家应优先聘请"伟大教练"的项目。为此,构建一个AHP-TOPSIS(层次分析法-逼近理想解排序法)评价模型,对各项目进行综合评价打分,最终选出最需要聘请教练的项目。
针对问题三,目标是揭示关于奥运会奖牌数量的其他原创见解。在这一部分,我们可以重点关注在解决前两个问题中未使用的数据维度,比如:性别因素:分析男女选手在奖牌获取上的差异;组织机构:考察不同国际组织或国家对奖牌分配的影响;国家类型:不同类型国家在奖牌比例上的特点。
一、问题重述
二、问题分析
三、模型假设与符号说明
这部分内容大家自行补充避免查重。
四、数据预处理
在表格"summerOly_athletes"的"Team"列中,存在较多的前后空字符。为了方便后续匹配,先对前后空字符进行删除。
在"NOC"列中,部分国家存在标签变更的情况。统计各个标签第一次和最后一次参加奥运会的时间,列出最后一次参赛时间不为2024年的国家,如下表所示。
对于上述国家,根据其具体国情的不同分别对参赛数据进行分类处理。
荷兰安的列斯群岛(AHO,全称荷属安的列斯)在2010年解体,其成员国和地区成为独立奥委会或荷兰的代表队成员,因此未参加2024年奥运会。故在后续的分析中不再讨论该国数据。
澳大拉西亚(ANZ,全称澳大利亚和新西兰联合队)在1908年和1912年曾联合参赛,但之后澳大利亚和新西兰各自独立参加,所以也未出现在2024年的赛场上。将这两年的参赛数据均分至澳大利亚和新西兰。
白俄罗斯(BLR)因国际奥委会的制裁,禁止以国家名义参赛。故在后续的分析中不再讨论该国数据。
波希米亚(BOH),作为奥匈帝国的一部分,1920年后成为捷克斯洛伐克的一部分,同样不再独立参赛。故在后续的分析中不再讨论该国数据。
克里特(CRT)作为希腊的一部分,也未独立参赛。故在后续的分析中不再讨论该国数据。故在后续的分析中不再讨论该国数据。
独联体联合队(EUN),即前苏联国家联合参赛的形式,仅在1992年出现过一次,之后各前苏联国家均以独立身份参赛。在后续的分析中不再讨论该国数据。
德意志联邦共和国(FRG,西德)和德意志民主共和国(GDR,东德)在1990年德国统一后,均以统一的德国(GER)身份参赛。
独立奥运选手队(IOA)是为特定年份因国籍、政治或国际争端的个人选手设置的,而2024年并未设立此类队伍。在后续的分析中不再讨论该国数据。
解放运动代表队(LIB)、马来亚(MAL)、北婆罗洲(NBO)、纽芬兰(NFL)、罗德西亚(RHO)等队伍或国家因政治变迁或并入其他国家而不再独立参赛。故在后续的分析中不再讨论这几个国家的数据。
俄罗斯奥委会代表队(ROC)和俄罗斯(RUS)均因国际奥委会的制裁而未以国家名义参赛。故在后续的分析中不再讨论这几个国家的数据。
南阿拉伯联邦(SAA)解体后成为也门,以也门(YEM)身份参赛。故将SAA的参赛数据纳入YEM。
塞尔维亚和黑山(SCG)在2006年解体后,分别以塞尔维亚(SRB)和黑山(MNE)独立参赛。捷克斯洛伐克(TCH)在1993年解体后,以捷克(CZE)和斯洛伐克(SVK)独立身份参赛。阿拉伯联合共和国(UAR)解散后,埃及(EGY)和叙利亚(SYR)分别独立参赛。未知队伍或代表身份(UNK)为非正式国家队,2024年不存在。苏联(URS)在1991年解体后,各加盟共和国也独立参赛。西印度群岛联邦(WIF)解散后,各成员国独立参赛。南斯拉夫(YUG)解体后,其成员国也分别独立参赛。故在后续的分析中不再讨论这几个国家的数据。
越南(VNM)当前代码为VIE,可能因代码变化未列入2024年参赛名单。故将VNM的数据并入VIE。
也门阿拉伯共和国(YAR,北也门)和也门民主共和国(YMD,南也门)在1990年合并为也门(YEM)。故将YAR和YMD1900前的数据合并为YEM。
进行上述处理后,结果可视化如下图所示:
由上图可以看到,在替换标签后各个国家在2024年均有参赛记录,不存在历史标签未被替换的情况。
同样的,对其余数据集进行国家标签替换用于后文的求解。
五、奖牌榜预测
5.1 基于LSTM长短期记忆循环神经网络的预测模型的建立
在本文中,基于LSTM对各国的获奖情况进行预测。
人类大脑的记忆具有持久性,可以通过过往的知识积累去理解学习当前的知识。而传统的神经网络并没有持久性,每一个神经元不能通过前面神经元的学习结果进行重新推断学习,为了解决这一问题科学家提出了RNN递归神经网络(Recurrent Neural Networks,RNN),并改进提出一种特殊的递归神经网络:LSTM长短期记忆网络。
LSTM可解决一般递归神经网络中普遍存在的长期依赖问题,有效的传递和表达长时间序列中的信息并且不会导致长时间前的有用信息被遗忘。同时,LSTM还可以解决RNN中的梯度消失/爆炸问题。
LSTM 也具有RNN的链状结构,但重复模块有不同的结构,是以四个神经网络层通过一种非常特殊的方式进行信息交互,如图7所示。
在图X中,每条线都带有一个完整的向量,从一个节点输出到其他节点的输入;粉色圆圈表示逐点操作,如向量加减;黄色框是用于学习的神经网络层。
第一层是"遗忘门"层,决定我们要从细胞状态中遗弃哪些信息。它利用H_(t-1)和x_t ,并为单元格状态C_(t-1)中的每个数字输出一个0到1之间的数字。A为1表示保留此信息,而A为0表示遗忘此信息。
第二层是"记忆门"层,决定我们要在细胞状态中存储哪些新信息。首先,称为"输入门层"的sigmoid 层决定更新哪些值。接下来,一个tanh层创建一个新候选值的向量 ,可以将其添加到状态。
第三步是"输出门"层,决定要输出的信息。此输出将基于细胞状态,但将是筛选后的结果。首先,运行一个 sigmoid 层,用来决定输出细胞状态的哪些部分。然后将细胞状态通过tanh(值介于-1和1之间),并将其乘以sigmoid层的输出,这样就只输出我们决定输出的信息。
在本文中,为了充分考虑待预测期的运动员安排和历史的获奖情况,构建多输入的奖牌预测模型。各个特征如下表所示:
奖牌数量是衡量一个国家体育竞技水平最直观的数据。上一期的奖牌数量反映了该国在过去一段时间内的体育成绩和竞技实力,是预测未来奖牌数量的重要基础。通过分析历史奖牌数据,可以发现一些国家在某些项目上具有较强的竞争力,这种竞争力在一定程度上会延续到未来的奥运会中。
参赛人数越多,意味着该国在奥运会上展示实力的机会越多。更多的参赛选手意味着更多的奖牌潜在获得者。故本期该国的参赛人数可以较好地反应奖牌获得的数量。
总参赛次数反映了参赛人员的比赛经验和竞技状态。经验丰富的选手更有可能在奥运会上发挥出最佳水平,从而获得奖牌。多次参赛的选手在心理上和技术上都更加成熟稳定,这有助于提高奖牌获得的可能性。
平均参赛次数可以反映一个国家体育团队的整体实力和竞技水平。平均参赛次数越高,说明该国的体育团队在多个项目上都具有较强的竞争力。
5.2 模型预测结果
基于上文所述的模型对各个国家2028年的获奖情况进行预测。并基于各个国家历史的获奖情况进行评价。部分国家的获奖预测如下图所示:
图中,空心原点为2024年及以前的实际获奖情况,星号为2028年预测的获奖情况。由上图可以看出,绝大多数预测值与历史获奖情况的趋势一致。部分趋势不一致的情况是由于2028年的参赛人员安排在一定程度上也会影响获奖的情况。
各个国家的进步与退步情况如下表所示:
对上表结果,以巴西(BRA)、加拿大(CAN)和塞尔维亚(SRB)为例进行分析。
巴西近年来在体育领域的基础设施建设、运动员培养和赛事组织方面加大了投资力度,为巴西运动员提供了更好的训练条件和参赛机会。此外,2016年里约奥运会为巴西留下了丰富的奥运遗产,这些遗产继续为巴西运动员提供支持和动力。巴西在足球、排球、游泳、田径等项目上拥有深厚的人才储备和竞技实力,这些因素共同推动了巴西在奥运金牌数量上的增长潜力。当前,巴西政府正积极推动体育产业的发展,旨在进一步提升国家体育实力和影响力,这为巴西在2028年奥运会上取得好成绩提供了有力保障。
相比之下,加拿大近年来在体育领域的政策调整可能影响了运动员的培养和参赛机会。政府对体育项目的资助力度可能有所减少,导致一些项目的运动员面临训练和参赛资源不足的问题。同时,随着其他国家在体育领域的投入增加和竞技水平的提升,加拿大在国际赛事中面临的竞争压力也在不断增大。此外,加拿大还可能面临运动员人才流失和老龄化的问题,这进一步削弱了其整体竞技实力。
塞尔维亚则因其稳定的政策支持、传统优势项目以及面临的挑战等因素,在奥运金牌数量上可能维持现状。塞尔维亚政府对体育事业的支持相对稳定,为运动员提供了良好的训练和参赛条件。
最终得到2028年奥运会的奖牌榜如下表所示:
六、首枚奖牌预测
6.1 BP神经网络的建立
6.2 模型预测结果
七、各国奖牌数量与赛事关系模型的建立与求解
7.1 模型的建立
7.2 赛事与各国奖牌数量关系模型的建立
7.3 关系模型求解
完整论文与代码
论文
可运行代码
需要完整论文和代码的小伙伴看文章下方!由Rose学姐和F奖学长共同完整,高质量原创~