数据分析丨世界杯冠军猜想:EA 体育游戏模拟能成功预测吗?

你想预测出世界杯冠军得主吗?

许多文章都会做类似 "巴西将赢得世界杯 "或 "西班牙是头号竞争者 "的说法。但在我们走预测冠军的路线之前,我们需要问自己一个问题:我们真的想这样做吗?这是我们的目标吗?

正如其他解决问题的活动一样,我们应该在这里问自己,我们的真正诉求是什么?让我列出几点想法:

  • 我们想知道谁是冠军

  • 我们想知道该把赌注押在谁身上

  • 我们想知道哪场比赛是最势均力敌的,从而得出哪个赛程最激烈有趣

  • 我们想写一篇漂亮的文章,其中有一些关于如何使用某些算法的亮点

基于诉求,我们可以选择我们的建模策略。最明显的区别是**"投注在谁身上"** 和 **"赌谁会赢 "**之间的区别。在 "赌谁会赢"的情况下,我们只想以最高的准确性来预测赢家。但如果我们想下注,我们确实想知道发生这种情况的几率。要做到这一点,我们需要很好地校准概率,以决定我们是否可以投注在劣势的一方,如果赔率足够好的话。

在投注的情况下,我们甚至可以更进一步,不仅要优化预测过程,还要优化投注策略。这使我们进入了一个完全不同的领域。线性编程,甚至可能是博弈论。

**我们能学到什么?**要先问目标,然后在此基础上决定你的建模策略和绩效衡量标准。许多简单的衡量标准本身是毫无价值的。当你在看一场比赛时,你会听到很多 "统计 "的评论。你肯定经常听到这样的评论:

"从统计数据来看应该支持英格兰,最近三场比赛对三狮军团来说是不错的!"

我们往往会思考这些数字意味着什么。很多人认为:这就是统计学! 以平均数、总和等来得出见解。

我想大家应该都知道,放眼世界杯,就不是那么简单了。仅仅因为巴西赢得了最多的奖杯这个前提,并不能使他们成为本届世界杯的热门。如果就这么简单的话,我们都可以推导出简单的决策树来进行良好的预测,并通过投注轻松赚上一笔。

**我们能学到什么?**简单衡量标准是没有用的。鉴于人们对比赛的兴趣,这给了我们一个解释统计数据的机会。

随着团队的变化而改变观念?

我们在预测性建模中的一个关键假设是,我们训练的数据对我们应用模型的数据具有代表性。如果不是这样,我们就会谈论数据漂移,或概念的改变。围绕这个问题有很多文献,以及如何检测、对抗和防止它。

如果我们训练一个模型来预测卡塔尔对厄瓜多尔的揭幕战,我们用什么来预测?

好吧,我想我们可以利用卡塔尔和厄瓜多尔之前的比赛信息以及他们在那里的表现。我们也可以利用最近的友谊赛来预测。厄瓜多尔刚刚与沙特阿拉伯和日本进行了两场友谊赛,他们以0-0打平。因此,我们可以从这里得出厄瓜多尔不是最懂球的球队。或者这一切预测都不成立?

友谊赛能代表一支球队在杯赛中的表现吗?德国队是著名的 "锦标赛球队",他们在锦标赛中的表现更好。另外,值得注意的是,你可以让新球员参加友谊赛,只是为了看看他们的表现。这些友谊赛不太可能有代表性。

**我们能学到什么?**数据漂移始终是一个问题。在像世界杯这样的例子中------每4年才发生一次,数据漂移是一个关键的挑战。

模拟是非常有趣的

"当你有一把锤子时,一切看起来都像钉子"。我想我们都知道这句话。你们中的大多数人都在从事预测分析工作,所以我们很自然地潜心研究梯度博弈树、神经网络和其他预测方法,以预测比赛结果。这都是自然而然的。

我发现另一种方法超级有趣,就是用 EA 体育的国际足联游戏来模拟结果。国际足联得到了关于每个球员的优势和劣势的密集数据。他们基本上建立了一个模拟器来模拟比赛。我们可以在这些数据的基础上创建国家队,并让他们在虚拟现实中进行比赛,以推导出赔率。

现在越来越多地涉足分析和模拟这一更广泛的领域。通过使用模拟的方法--在这种情况下来自EA Sport的国际足联游戏--你可以解决小样本量和数据漂移的问题,就像前面那段提到的。当然,你也会遇到其他的数据问题,比如说模拟的效果如何。

**我们能学到什么?**有时候,并不是第一个想法就能给我们带来最有希望的想法。数据分析不仅仅是预测性的方法。通常情况下,也值得检查其他的想法,如模拟、线性编程、BI或流程挖掘,以找到合适的方法。

数据的公平竞争环境

在过去的几年里,我曾几次尝试预测英超和德甲。当我想涉足一项新技术时,这多少是我的首选项目。

你猜怎么着,我从未真正找到一个好的模型。我把一个好的模型定义为一个模型,它从投注中获得正的平均预期收益。或者换句话说。我从来击败不了一个庄家。

经过几次反复和阅读,我才明白,我不是在一个公平的环境中比赛。我使用的数据来自这个网站,它不仅提供结果,还提供射门次数、红牌、角球等。这是一个不错的开始。

但如果你去看市场上有什么数据,那基本上是没有的。在英超联赛中,他们跟踪个别球员。他们检查一个人的跑动量和位置。有大量的数据是我这样的业余分析师所不能获得的。

**我们能从中学到什么?**当开始一个新项目时,我们应该检查项目的可行性。可行性评估有很多因素,但其中之一就是:在这个项目上已经做了什么?如果之前已经做了广泛的分析,我有多大可能获得更好的结果?我们又回到了原点。什么目的更好?如果我做这个分析是为了公关价值,我可能不介意简单地采取最受欢迎的赌注是更好的。如果我做这个分析是为了投注,我肯定会这样做。


Altair将于2024年11月20日至21日举办全球离散元仿真技术(ATCx DEM)直播会议**** ,展示DEM在工业制造业中的深度应用,探索与其他先进技术的融合,推动其应用向更高层次发展。

ATCx DEM 离散元仿真技术全球会议(点击报名)

此次会议,Altair 将邀请德国默克医疗、CNH 凯斯纽荷兰、NISSAN 汽车、住友金属、Sandvik 山特维克、山东临工等全球知名企业的技术专家和一线工程师,倾情分享近60个不同行业的精彩演讲,共同探索离散元方法在各个行业中的创新应用。

**会议时间:**2024 年 11 月 20 - 21 日 中午12:00开始

**会议形式:**线上直播(提供 AI 实时翻译)

相关推荐
不朽の燃梦1 分钟前
OpenCV基础(1)
人工智能·opencv·计算机视觉
蓝天星空9 分钟前
tensorflow有哪些具体影响,和chatgpt有什么关系
人工智能
数据媛13 分钟前
TensorFlow_T7 咖啡豆识别
人工智能·python·深度学习·机器学习·tensorflow
凡人的AI工具箱33 分钟前
15分钟学 Go 第 59 天 :更高级的Go话题——接触微服务
开发语言·人工智能·后端·微服务·golang
冬天的枫树1 小时前
计算机视觉空域处理完整版——超详细图文解
图像处理·人工智能·计算机视觉·图像滤波
青瓷程序设计1 小时前
基于Python深度学习的【垃圾识别系统】实现~TensorFlow+人工智能+算法网络
人工智能·python·深度学习
DashVector1 小时前
如何使用DashVector的多向量检索
开发语言·数据库·人工智能·数据库架构
小嗷犬1 小时前
【论文笔记】LoRA: Low-Rank Adaptation of Large Language Models
论文阅读·人工智能·语言模型·自然语言处理·大模型·微调
英码科技2 小时前
昇腾系列双处理边缘计算盒子DA500I,打造高效低延迟的视觉推理解决方案
人工智能·边缘计算
SEVEN-YEARS2 小时前
深入理解BERT模型:BertModel类详解
人工智能·深度学习·自然语言处理·bert