足球- EDA的历史数据分析并可视化

足球- EDA的历史数据分析并可视化

背景

该数据集包括从1872年第一场正式比赛到2023年的44,341场国际足球比赛的结果。比赛范围从FIFA世界杯到FIFI Wild杯再到常规的友谊赛。这些比赛严格来说是男子国际比赛,数据不包括奥运会或至少有一支球队是国家B队、U-23或联赛精选队的比赛。

数据介绍

results.csv包括以下列:

  • date - 比赛日期
  • home_team - 主队的名字
  • away_team - 客场球队的名称
  • home_score - 全职主队得分,包括加时赛,不包括点球大战
  • away_score - 全职客队得分,包括加时赛,不包括点球大战
  • tournament - 锦标赛的名称
  • city - 比赛所在城市/城镇/行政单位的名称
  • country -比赛所在国家的名称
  • neutral - 真/假栏,表示比赛是否在中立场地进行

探索数据时需要遵循的一些方向:

谁是有史以来最好的球队

哪些球队统治了不同时代的足球

古往今来,国际足球有什么趋势------主场优势、总进球数、球队实力分布等

我们能从足球比赛中对地缘政治说些什么吗------国家的数量是如何变化的

哪些球队喜欢相互比赛

哪些国家主办了最多自己没有参加的比赛

举办大型赛事对一个国家在比赛中的胜算有多大帮助

哪些球队在友谊赛和友谊赛中最积极------这对他们有帮助还是有伤害

数据处理

python 复制代码
import numpy as np 
import pandas as pd 
import os
for dirname, _, filenames in os.walk('/kaggle/input'):
    for filename in filenames:
        print(os.path.join(dirname, filename))

导入库

python 复制代码
import matplotlib.pyplot as plt
import seaborn as sns

数据探索

python 复制代码
df = pd.read_csv('/kaggle/input/international-football-results-from-1872-to-2017/results.csv')
df.head()
python 复制代码
print(f"This Dataset Includes {df.shape}")
python 复制代码
df.info()
python 复制代码
df.describe()
python 复制代码
df.describe(include=object)
python 复制代码
df.isna().sum()

将"日期"列转换为日期时间类型

python 复制代码
df['date'] = pd.to_datetime(df['date'])

数据可视化

赛事分析

python 复制代码
plt.figure(figsize=(20, 12))
sns.countplot(x='tournament', data=df)
plt.xticks(rotation=90)
plt.title('Tournament Distribution')
plt.xlabel('Tournament')
plt.ylabel('Count')
plt.tight_layout()
plt.show()

主客场比分

python 复制代码
plt.figure(figsize=(12, 8))
plt.subplot(1, 2, 1)
sns.histplot(df['home_score'], bins=20, kde=True)
plt.title('Distribution of Home Scores')
plt.xlabel('Home Score')
plt.ylabel('Frequency')
#Setting limit for first plot
plt.ylim(0, 40000)


plt.subplot(1, 2, 2)
sns.histplot(df['away_score'], bins=20, kde=True)
plt.title('Distribution of Away Scores')
plt.xlabel('Away Score')
plt.ylabel('Frequency')
# Share y-axis between subplots
plt.ylim(0, 40000)

plt.tight_layout()
plt.show()

相关性分析

python 复制代码
correlation_matrix = df.corr()
plt.figure(figsize=(10, 6))
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm')
plt.title('Correlation Matrix')
plt.show()

时间序列分析

python 复制代码
# 为年份创建新列
df['year'] = df['date'].dt.year

#时间序列分析
plt.figure(figsize=(10, 6))
sns.lineplot(x='year', y='home_score', data=df, label='Home Score')
sns.lineplot(x='year', y='away_score', data=df, label='Away Score')
plt.title('Trends in Home and Away Scores over Time')
plt.xlabel('Year')
plt.ylabel('Score')
plt.legend()
plt.tight_layout()
plt.show()

总结

以上就是今天分享的内容

相关推荐
装不满的克莱因瓶19 小时前
实现矩阵的转置:从数学原理到 NumPy 实战
线性代数·机器学习·矩阵·数据分析·numpy·特征分解
不知名的老吴21 小时前
Minitab 22中文版安装教程及全流程下载步骤指南
数据分析
m0_641889291 天前
2026好用的GEO优化监测系统,排名监测、数据分析、品牌诊断优化
人工智能·数据分析·geo·ai搜索·智能营销·geo优化
kcuwu.1 天前
FastText文本分类全流程实战技术博客
人工智能·分类·数据挖掘
isNotNullX1 天前
大数据项目4大核心环节详解:数据采集、数据处理、数据存储、数据分析
大数据·数据挖掘·数据分析
牛猫Data1 天前
POWER BI技巧:报告名称的Emoji符号妙用
microsoft·数据分析·数据可视化·powerbi
ZHW_AI课题组1 天前
基于XGBoost的鸢尾花花瓣长度回归预测
人工智能·数据挖掘·回归
哈伦20191 天前
第十章 聚类 案例:汽车款式聚类
数据挖掘·汽车·聚类
芝士爱知识a1 天前
资料分析速算指南:如何用结构化思维提升答题速度
大数据·人工智能·数据分析·结构化思维·资料分析·速算技巧·智蛙公考
【建模先锋】1 天前
强噪声故障诊断新思路!从频域降噪到故障分类:FusADFaultClassifier 自适应谱降噪分类模型详解
人工智能·深度学习·分类·数据挖掘·信号处理·故障诊断·降噪算法